< 목차 >
- 용어정의
- Decision theory
1. 용어정의
- Conditional Probability : 조건부 확률, 사건 A가 발생했을 때 사건 B가 발생할 확률
- Prior Probability : 관측 전에 이미 알고있는 선험적 확률
- Posterior Probability : 사건 A가 이미 발생한 후, 그 사건 B 조건하에서 발생했을 확률
- Normalization Factor : 복수항을 비교하기 위해 정규화 역할을 하는 인자
- Joint Probability : 둘 혹은 복수의 사건(A, B, ...)이 동시에 발생할 확률
2. Decision theory
Decision Theory를 설명을 위해 간단한 예로 X-Ray 영상을 통해 암 진단하는 예를 들 수 있다.
이때 입력데이터 x는 X-Ray 영상의 픽셀값이며, 타겟데이터 t는 x의 이미지가 암 환자에 속하는 것(양성)인지 정상(음성)인지를 각각 0과 1로 나타낸다.
결국, Decision Theory의 목적은 기존데이터를 통해서 새로운 X-Ray 데이터 x' 가 양성인지 음성인지 예측하기 위한 것이고, Bayes's Theorem을 통해 다음 수식으로 나타낼 수 있다.
위의 수식을 암환자 진단예제로 설명하면, 우리는 실제 암환자와 정상인의 X-Ray 영상데이터를 통해 Conditional Probability 의 분포를 알 수 있고, 일반적으로 암이 발병할 확률을 통해 Prior Probability 에 대한 정보를 얻을 수 있다. 또한, 위의 두 확률분포를 통해서 새로운 X-Ray 데이터가 주어졌을 때, 그것이 암환자의 것인지 정상인지를 Posterior Probability 분포를 통해서 예측할 수 있다. 이 수식에 존재하는 P(x)는 단지 Normalization Factor의 역할을 수행하여 큰 영향력은 없다고 볼 수 있다.
보다 정확한 진단을 위해서는 오분류(misclassification)을 최소화하는 것이 반드시 필요하고, 다음의 수식으로 설명된다.
여기서 R1은 양성으로 진단되는 영역, R2는 음성으로 진단되는 영역이며 C1은 실제 암환자인 것, C2는 정상으로 분류되는 것이다. Misclassification을 최소화하기 위해서 R1 영역에 있는 데이터가 C2 로 분류되는 것과, R2 영역에 있는 데이터가 C1 로 분류되는 것을 최소화 해야한다. 따라서, 위의 내용은 왼쪽의 Joint probability로 표현할 수 있다.
또한, X-Ray 데이터가 C1에 분류될 확률이 C2에 분류될 확률보다 크다면 직관적으로 그 데이터가 C1, 즉 양성으로 분류될 것임을 알 수 있다. 이는 아래의 수식으로 표현할 수 있으며, 앞서 언급한 Normalization factor 를 이용해서 다음과 같이 전개할 수 있다.
위의 수식을 토대로, 오분류를 최소화하는 Optimal decision boundary를 찾기 위한 방법은 아래 그림으로 표현된다.
- Decision boundary = x_0 일 경우
- x_0의 왼쪽에 존재하는 임의의 데이터에 대해, C2로 분류되어야 하지만 p(x|C2)보다 p(x|C1) 확률이 더 높기 때문에 C1으로 분류될 확률분포 영역(연두색)이 존재하고, 마찬가지로 x_0의 오른쪽에는 C1으로 분류되어야 하지만 C2로 분류될 확률분포 영역(연두색과 보라색)이 존재한다.
- Decision boundary = x_hat 일 경우
- x_hat의 왼쪽에 존재하는 임의의 데이터에 대해, C2로 분류되어야 하지만 C1으로 잘못 분류되는 확률분포 영역(빨간색)이 기존 오분류 영역(연두색과 보라색)에 추가된다.
즉, 이 그림에서 오분류를 최소화하는 Optimal decision boundary는 x_0 이라고 할 수 있고 여기서 발생한 오분류를 테이블로 나타내면 아래와 같다.
- Type l error 는 실제로 암이 있으나, 음성으로 진단되는 경우를 일컫는다. (False-Negative)
- Type ll error 는 실제로는 정상이나, 양성으로 진단되는 경우를 일컫는다. (False-Positive)
- 분류목적에 따라 다르지만, 이 문제에서는 실제 암이 있음에도 불구하고 암이 없다고 진단되는 경우가 암이 없으나 암이 있다고 진단되는 경우에 비해 치명적이기 때문에 Type l error 가 Type ll error 보다 더 중요하다고 볼 수 있다.
이러한 이유로, 앞서 설명한 수식에 Error 타입별로 가중치를 달리하는 Loss matrix를 도입하여 오분류를 편향적으로 최소화 할 수 있다.
'인공지능 > 머신러닝 이론' 카테고리의 다른 글
1-6. Advantage of having the Posterior Probability (4) | 2021.03.26 |
---|---|
1-5. Introduction to Classification Problems (1) | 2021.03.26 |
1-3. Introduction to Model Selection (0) | 2021.03.26 |
1-2. Probabilistic Perspective of Curve Fitting (0) | 2021.03.26 |
1-1. Introduction to Statistical Pattern Recognition (0) | 2021.03.26 |