본문 바로가기

컴퓨터/인공지능 및 기계학습 개론1

3.1. Optimal Classification

Supervised Learining:

1. classification : Hit or Miss / Ranking / Types 을 다루는데 활용된다.

x를 받아서 y를 반환하는 방법

f(X)는 X에 대한 y라는 확률. 이 때 y는 에러를 내포하고 있으므로 y hat이다.

y hat과 Y가 같지 않을 확률을 최소화하는 f를 찾아내고 이를 f start라고 한다.

 

이는 X = x라는 정보가 주어졌을 때 Y = y의 확률을 최대화 하는 함수와 같은 기능이므로 다음과 같이 쓸 수 있다.

Bayes Risk:

decision boundary를 기준으로 급격한 확률 차이를 보인다면 두 클래스를 분리하기 쉽다.

하지만 선형으로 변화한다면 큰 확률의 차이로 분리시키기 쉽지 않다.

 

결국 포물선 형태(S curve)로 클래스를 분리했을 때, 선형으로 클래스를 분리할 때보다 그 에러가 적다.

 

Learning the Optimal Classifier

 

Bayes Therom의 특징은 given과 random variable의 관계를 뒤집을 수 있다.

이때 P(X=x|Y=y) : Class Conditional Density = Likelihood, P(Y=y) : Prior = Class Prior이다.

 

여기서 x의 정보가 하나가 아니며 이 정보들이 interaction되기 때문에 combination하여 표현하기가 매우 어렵다.

>> 해결책 : Niave Bayes Classification(이러한 interaction을 무시하는 방법)