본문 바로가기

컴퓨터/인공지능 및 기계학습 개론1

1.2 MLE

Thumbtack Question : 압정이 어떻게 떨어질지를 예측하는 방법

5번의 방법 중에서 3번이 tail이고 2번이 head라면 tail로 예측하는 것이 과연 옳바른가?

왜 3/5과 2/5인가?

 

Binomial Distribution : discrete probability distribution = T or F, Head or Tail와 같이 이산적인 사건에 대한 확률 분포

가정 : i.i.d contidition : 첫 번째 던질 때와 두 번째 던질 때 서로 연관된 사건이 아님을 가정한다.(독립시행을 의미)

Head가 나올 확률을 P(H) =  theta라고 한다면, Tail이 나올 확률은 P(T) = 1 - theta 라고 한다.

모든 확률의 합은 1이 되어야 한다. 

>> P(HHTHT) = theta * theta * (1-theta) * theta * (1-theta)  = theta ^3 * (1-theta) ^ 2

>> 횟수 n = 5, 헤드가 나온 횟수 k = Ah = 3, 압정이 모양에 의해 헤드가 나올 확률 = theta

>> P(D|theta) =  theta ^ Ah * (1-theta) ^ At : 데이터가 주어졌을 때 확률

 

목표 : best of theta를 찾아서 가정을 신뢰하자.

방법 : Maximum Likelihood Estimation(관측될 데이터의 등장한 확률을 최대화하는 theta를 찾는다.

theta hat = argmax theta * P(D|theta) : P(D|theta) 를 최대화 하는 theta를 찾았을 때 그 theta를 theta hat이라 한다.

theta = argmax theta * (theta ^ Ah * (1-theta) ^ At)에서, 양변에 로그를 취하고(원래식과 로그의 식에서 그 점이 가리키는 확률은 서로 같다.) 미분을 하면,

 

 

즉 세타는 헤드가 나온 횟수 / 던져진 횟수가 나오는 것이다.

이 때 theta는 MLE 관점에서 본 최적화된 theta이므로 이를 theta hat이라 할 수 있다.

그렇다면, head가 30이고, tail가 20번 이여도 0.6이 나왔다면 두 theta는 같은 값을 의미하는가?

>> theta는 parameter에 대한 추론이지 parameter를 의미하지 않는다. 즉, 많은 시도에 의해 에러가 감소될 수 있다.

>> theta hat은 true parameter를 의미하는 theta star와 같음을 의미하지 않는다.

error를 어떻게 하면 줄일 수 있는가? : N을 늘려야 한다.

(생략)

 

결론)

Probably Approximate Correct(PAC) learning : 오차 범위에 내에선 correct한 러닝의 결과 = theta hat

 

'컴퓨터 > 인공지능 및 기계학습 개론1' 카테고리의 다른 글

2.2. Introduction to Rule Based Algorithm  (0) 2021.01.23
2.1. Rule Based Machine Learning Overview  (0) 2021.01.23
1.4. Probability and Distribution  (0) 2021.01.23
1.3. MAP  (0) 2021.01.23
1.1 Motivations  (0) 2021.01.22