본문 바로가기

컴퓨터/인공지능 및 기계학습 개론1

4.5. How Gradient method works ~ 4.6. Logistic Regression Parameter Approximation 2

itr를 조정하여 시작 지점에서 optimization 하는 지점까지 이동할 수 있다.

강의에선 900번을 하였을 때 도달했음을 알 수 있다.

 

만약 x를 크게한다면 걸음걸이가 크다면 itr를 낮게해줘도 도달할 수 있다.

하지만, h를 크게 한다면 gradient descent를 만들었을 때 h가 작으믈 h^2를 제거할 수 있었는데, 이를 제거하지 못함으로써 복잡해진다.

 


θ를 업데이트해서 logistic regression을 만들어 보자. 이를 위해서 gradient ascent를 활용한다.

 

f(theta)의 최댓값을 찾기 위하여 f(theta)를 미분하면 다음과 같다.

또한 gradient ascent는 다음과 같으므로,

이를 위의 식에 대입하면

이 때 c는 벡터의 정규화(크기 1인 벡터)를 만들기 위해 사용되었지만, 사실 h가 워낙 작아서 필요없음

 

Linear Regression with Gradient method:

 

linear regression에서 다음과 같은 식을 만들었다. 여기서 문제가 발생한다. 만약 X의 크기가 너무 크다면 inverse를 구하는것이 매우 힘들것이고, Y또한 커진다면 XY의 행렬곱을 만드는 것이 매우 복잡할 것이다.

>> 이를 해결하기 위한 방법이 gradient descent이다.(theta를 approximation하는 것이다.)

이를 미분하여 잘 정리하면,

위와 같이 정리된다.

 

이와 같이 Linear Regression에 대해서도 Gradient method를 이용해서 theta를 찾을 수 있다.

또한 massive matrix에 대하여 inverse, multiplication을 피할 수 있는 형태의 approximation이 된다.