본문 바로가기

컴퓨터/인공지능 및 기계학습 개론1

4.4.Gradient method.

logstic regression classifier은 linear regression과는 다르게 multiple한 경우의 수에 대해서도 다룰 수 있다.

>> decision boundary가 shrap하게 나누어지는 S-curve가 보기 좋다.

 

결국 θ를 알아야 hypothesis를 강하게 만들 수 있다.

하지만 closed form solution 형태가 나오지 않아(θ = ~ 형태로 나오지 않아) θ를 approximation하는 과정을 필요로 한다.

>> 이러한 방법 중 하나가 바로 gradient descent algorithm 이다.

 

Taylor Expansion : 테일러 급수

 

Gradient descent : f(x)라는 함수가 있다고 가정하자. 초기값은 x1 이다.

가능한 parameter에서 점을 계속하여 움직이는데, f(x)가 작거나 커지도록 계속 이동시킨다.

단, 이동에는 방향과 속력이 필요하다. 

>> 방향과 속력을 알아내는 것이 Gradient descent이다. 이 중에서도 중요한 것은 방향. 속력은 어차피 느려도 가다보면 도착한다. 하지만 방향이 다르면 원하는 목표에 도달할 수 없다.

 

테일러 급수에서 빅오 표기법, a = x1, x = x1 + hu(u는 단위방향벡터)를 이용한다면, 방향을 미분한 u`은,

 

위와 같다. 미분하기 위해 극소화를 하였는데, 벡터의 방향이 반대여야 극소화되므로 마이너스가 붙었다.

 

따라서,  임의의 t에 optimization된 x에 대하여 다음과 같은 결론을 내릴 수 있다.

Graident ascent: gradient descent에서 방향만 바꿔주면 된다.

 

결론 : 

초기값을 θ1을 세팅하고, 이를 반복적으로 움직이면서 f(θt)의 최댓값을 찾는다.

이를 통해 logistic regression에서의 parameter inference에서 optimization하여 θ를 찾는 것이 gradient descent/ascent이다.