logstic regression classifier은 linear regression과는 다르게 multiple한 경우의 수에 대해서도 다룰 수 있다.
>> decision boundary가 shrap하게 나누어지는 S-curve가 보기 좋다.
결국 θ를 알아야 hypothesis를 강하게 만들 수 있다.
하지만 closed form solution 형태가 나오지 않아(θ = ~ 형태로 나오지 않아) θ를 approximation하는 과정을 필요로 한다.
>> 이러한 방법 중 하나가 바로 gradient descent algorithm 이다.
Taylor Expansion : 테일러 급수
Gradient descent : f(x)라는 함수가 있다고 가정하자. 초기값은 x1 이다.
가능한 parameter에서 점을 계속하여 움직이는데, f(x)가 작거나 커지도록 계속 이동시킨다.
단, 이동에는 방향과 속력이 필요하다.
>> 방향과 속력을 알아내는 것이 Gradient descent이다. 이 중에서도 중요한 것은 방향. 속력은 어차피 느려도 가다보면 도착한다. 하지만 방향이 다르면 원하는 목표에 도달할 수 없다.
테일러 급수에서 빅오 표기법, a = x1, x = x1 + hu(u는 단위방향벡터)를 이용한다면, 방향을 미분한 u`은,
위와 같다. 미분하기 위해 극소화를 하였는데, 벡터의 방향이 반대여야 극소화되므로 마이너스가 붙었다.
따라서, 임의의 t에 optimization된 x에 대하여 다음과 같은 결론을 내릴 수 있다.
Graident ascent: gradient descent에서 방향만 바꿔주면 된다.
결론 :
초기값을 θ1을 세팅하고, 이를 반복적으로 움직이면서 f(θt)의 최댓값을 찾는다.
이를 통해 logistic regression에서의 parameter inference에서 optimization하여 θ를 찾는 것이 gradient descent/ascent이다.
'컴퓨터 > 인공지능 및 기계학습 개론1' 카테고리의 다른 글
4.7. Naive Bayes to Logistic Regression (0) | 2021.01.24 |
---|---|
4.5. How Gradient method works ~ 4.6. Logistic Regression Parameter Approximation 2 (0) | 2021.01.24 |
4.3. Logistic Regression Parameter Approximation 1 (0) | 2021.01.24 |
4.1 Decision Boundary ~ 4.2 Introduction to Logistic Regression (0) | 2021.01.24 |
3.4. Naive Bayes Classifier Application (Matlab Code) (0) | 2021.01.24 |