경사하강법의 동작에 대해서 살펴보기 위하여 문제를 간단히 해보도록 합니다.
하나의 입력 파라메터 만을 고려한 비용함수를 이용하여 비용하강 알고리즘에 대하여 살펴보겠습니다.
하나의 입력 파라메터만을 사용할 경우, 아래의 결과 값이 수렴할 때까지 반복하게 됩니다.
위 과정은 비용함수()의 경사값의 부호(+, -)와 관계 없이 비용함수의 최소값 수렴하게 됩니다. 그 과정은 아래의 그림에 표현되어 있습니다.
경사값이 양수일 경우, 새로 갱신되는 값은 이전의 값에 비하여 작아지므로 비용함수의 왼쪽으로 이동하게 되며, 그 반대인 경우는 오른쪽으로 이동합니다.
는 한번 값을 갱신할 때의 비율로 너무 작을 경우, 오랫동안 학습을 진행하게 되며, 너무 클 경우는 최소값에 수렴하지 못하거나 발산(diverge) 할 수 있습니다.
고정된 크기의 로 어떻게 수렴할 수 있을까?
경사하강법을 적용하였을 때, 비용함수의 최소값으로 수렴한다는 내용을 한번 더 상세히 살펴보면, 고정된 크기의 값을 사용하더라도 최소값에 가까워질수록 경사가 () 작아지기 때문에 최종적으로 갱신되는 값의 크기가 작아지고, 최소값 지점에서는 기울기 값이 0 이므로 좌/우로 이동하지 않고 최소값에 수렴한다는 것을 알 수 있습니다.
참고 및 출처 : Coursera - Machine Learning,Gradient Descent Intuition
'머신러닝' 카테고리의 다른 글
Multiple Features (0) | 2020.03.25 |
---|---|
선형회귀를 위한 경사하강법 (Gradient Descent For Linear Regression) (0) | 2018.10.02 |
경사하강법 (Gradient Descent) (0) | 2018.09.13 |
비용함수 (Cost Function) (0) | 2018.09.10 |
모델 표현(Model Representation) (0) | 2018.09.07 |