728x90
0.옵티마이저(Optimizer)
주어진 문제에 대해 최적의 해(solution)를 찾기 위해 파라미터를 조정하는 알고리즘
표 함수(주로 손실 함수)의 값을 최소화하는 방향으로 파라미터를 갱신한다.
1.경사하강법(Gradient Descent)
가장 기본적인 옵티마이저로 함수의 기울기를 계산하여 최적의 값을 찾아간다.
경사하강법은 함수의 기울기(미분값)를 따라가며 최솟값을 찾아가는 방식이다.
기울기(gradient)를 계산하고, 그 기울기가 가리키는 방향을 반대로 이동하여 최솟값을 찾아간다.
1-1.비용 (Cost)
모델이 예측한 값과 실제 값 간의 차이를 의미한다.
모델이 얼마나 잘 예측했는지를 측정하는 지표(모델의 예측 오류를 측정하는 지표)로 사용된다.
작을수록 좋다.
대표적으로 MSE가 있다
1-2.기울기(Gradient)
함수의 변화율을 나타낸다.
이 기울기는 비용 함수의 가장 빠르게 증가하는 방향을 가리키게 되고 경사하강법은 이 기울기 방향을 반대로 따라가면서, 비용 함수의 값을 줄여 나간다.
기울기가 양의 방향일 때는 파라미터를 줄이고, 기울기가 음의 방향일 때는 파라미터를 증가시키는 방식으로 최적의 파라미터를 찾는다.
2. 경사하강법(Gradient Descent) 과정
2-1.예측값 계산
모델의 예측값을 계산한다.
다음은 선형 회귀모델의 예측값이다.
2-2. 비용 함수(Cost Function) 계산
비용 함수(Cost function)를 통해 Cost 를 구한다.
다음은 MSE다.J(w)는 비용 함수로, 모델의 예측 오류를 측정하는 지표이기에 이 값을 최소화하려고 한다.
2-3. 기울기(Gradient) 계산
비용 함수 J(w)의 기울기(미분값)를 계산한다.
기울기는 비용 함수의 변화율을 나타내며, 가중치와 비용 함수 간의 관계를 보여줍니다.
(특정 w에서 비용 함수가 얼마나 가파르게, 그리고 어떤 방향으로 변하는지를 나타냄)
기울기가 양수면 비용 함수가 더 커질 수 있기 때문에, 가중치를 감소시켜야한다.
기울기가 음수면 비용 함수가 더 작아질 수 있기 때문에, 가중치를 증가시켜야한다.
다음 그림을 보면 왜 기울기가 0이 되는 w지점의 cost가 가장 작아지는지 알수있다.
2-4.가중치 업데이트
계산된 기울기를 바탕으로, 가중치를 업데이트한다.
가중치를 기울기 반대 방향으로 이동시켜 비용 함수의 값을 줄여간다.
η는 학습률
학습률 η가 크면 한 번에 많이 업데이트되고, 작으면 조금씩 업데이트한다.
다음공식을 보면
만약 J(w)의 기울기(J'(w))가 음수면 w 가 커지고
만약 J(w)의 기울기(J'(w))가 양수면 w가 작아지는 것을 볼수있다.
cost가 최소화가 되는 지점은 접선의 기울기가 0이 되는 지점이다.
728x90
'AI' 카테고리의 다른 글
[AI] 시계열 데이터(Time Series Data) (1) | 2024.12.28 |
---|---|
[AI]선형 회귀(Linear Regression) (1) | 2024.12.28 |
[AI] 머신 러닝(Machine Learning) 용어 (2) | 2024.12.27 |