< 목차 >
- 용어정의
- Linear models for classification
- Generative model
- Discriminative model
- Discriminant function
1. 용어정의
- Outlier : 이상점, 변수의 분포에서 비정상적으로 벗어난 값
2. Linear models for classification
앞의 챕터에서 이미 언급했듯, Classification 문제를 풀기위한 방법으로 세 가지가 제시되었고, 각 방법의 특징을 요약하면 아래와 같다.
2-1. Generative Model
Class-conditional density function인 p(x|C_k)와 Prior class probability 인 p(C_k)를 계산하고, 베이지안 이론을 통해 Posterior probability인 p(C_k|x)을 계산한다.
이러한 방법은 입력값 x의 차원에 따라 계산의 복잡도가 O(N^2)만큼 증가하는 Dimensionality 문제가 있으나, p(x)를 계산하는 과정에서 입력데이터 x가 신뢰할 수 있는지 확인할 수 있는 장점이 있다. 아래 그림을 예로, 만약 p(x)의 확률분포를 알 수 있으면 새로운 입력데이터 x1과 x2 에 관해서 x2라는 데이터가 outlier로서 신뢰할 수 없다는 것을 알 수 있다.
2-2. Discriminative Model
이 방법은 Posterior probability인 p(C_k|x) 를 직접 계산하는 것으로 Generative Model에서 발생했던 복잡성을 해소할 수 있다. 단, p(x)에 대한 확률분포를 알 수 없기때문에 새로운 입력데이터가 신뢰할 수 있는 데이터인지 아닌지 구분할 수 없다는 단점이 존재한다.
2-3. Discriminant Function
위의 두 가지 방법보다 간단하게 Classification 문제를 풀기 위한 방법으로서, 입력데이터 x를 주어진 클래스 C_k로 mapping 할 수 있는 함수 f(x)를 찾는 것이다. 예로 들면, x1에 대해 f=0 에 가까울 경우 C1에 속하게 되고 x2에 대해 f=1에 가까울 경우 C2에 속하게 된다.
위의 예제 그래프에서는, p(x, C1) 와 p(x, C2)가 같아지는 점에서 C1과 C2로 결정짓는 Decision boundary를 x_0으로 결정할 수 있다. 이때, x_0의 좌측에 p(x,C2)의 분포 내 존재하는 입력데이터 x는 Decision boundary로 인해 C1로 오분류되고 이를 Type ll Error 라고 일컫는다. 이와 반대로, x_0의 우측에 p(x,C1)의 분포 내 존재하는 입력데이터 x는 C2로 오분류되고 이를 Type l Error라고 말한다.
만약 Decision boundary 을 x_hat로 결정했을 경우, 추가적인 오분류 영역(빨간색 영역)이 발생하므로, 이러한 오분류를 최소화하는 최적의 Decision boundary는 x_0이라 할 수 있다.
이러한 Type l, ll Error 는 어떤 Classification 문제냐에 따라 중요도가 달라지는데, 암환자를 찾아내는 문제에서는 암이 있는데(R2) 음성으로 진단(C1)하는 Type l Error 가 훨씬 중요하게 여겨지며 이를 위해서 가중치를 달리할 수 있다. Type 별로 가중치를 달리한 매트릭스를 Loss matrix라고 하며, 아래와 같이 나타낼 수 있다.
그리고 이 매트릭스를 이용해서 오분류를 최소화하는 Error Function을 전개할 수 있다.
'인공지능 > 머신러닝 이론' 카테고리의 다른 글
3-3. Least Squares for Computing 'w' (0) | 2021.03.31 |
---|---|
3-2. Discriminant Functions (0) | 2021.03.31 |
2-6. Overfitting and Condition Number (0) | 2021.03.29 |
2-5. Singular Value Decomposition(SVD) (0) | 2021.03.29 |
2-4. Bias vs. Variance (0) | 2021.03.29 |