< 목차 >
- 용어정의
- Probabilistic perspective of curve fitting
1. 용어정의
- Error Function : Curve Fitting으로 계산된 함수와 각 측정값과의 제곱오차합(SSE, the sum of squared errors)
- Regularization : '정규화'는 과적합 문제를 방지하기 위해서, curve fitting으로 계산된 함수계수 중 중요하지 않은 계수들을 작게 만들어서 모델에 미치는 영향을 최소화 시켜주는 방법
- Likelihood Function : 우도(가능도) 함수, 어떠한 a 에 대해 b가 도출되었다면 a의 변화에 따른 b의 결과(분포)를 살펴보는 것
2. Probabilistic perspective of curve fitting
위에서 언급한 curve fitting 을 확률적 관점에서 접근하기 위해, 주어진 입력데이터 x에 상응하는 타겟데이터 t는 y(x, w)의 평균과 1/β의 분산을 갖는 정규분포를 가진다고 가정한다.
이때, 학습데이터셋 (x, t)에 관한 Likelihood function 은 아래와 같이 나타낼 수 있다. (수식 뒤에 * 는 학습데이터가 직전 n-1 에서의 정규분포와 n에서의 정규분포가 독립적이라고 두는 것을 의미한다. )
이후 양변에 자연로그를 취하면 아래와 같은 수식으로 전개할 수 있고, 전개된 식에서 Likelihood function을 최대화하는 것이 곧 Error function을 최소화하는 것과 동일하다는 것을 알 수 있다. 그러므로, 최적의 w_ml 은 앞에서 언급했던 Error function에서 w*를 구하는 방식과 동일하게 구해질 수 있다. (ml은 Maximum Likelihood 의 약자를 가르킴)
1/β_ml 또한 위의 Likelihood function 을 β 에 대해 편미분한 뒤, 0이 되는 β값 도출하면 아래와 같이 1/β_ml을 구할 수 있다.
따라서, Maximum likelihood method로 구한 w_ml과 β_ml 를 통해, 앞에 언급한 x에 대한 t의 확률분포는 다음과 같이 나타내진다.
이어서, 베이지안 이론을 통해 w 를 추정하기 위해서 아래와 같은 수식으로 전개할 수 있고 앞서 구했던 p(t|x, w, β)와 아래 p(w|α) 를 각 항에 대입한다.
따라서, 아래의 식을 얻을 수 있고 negative logarithm 을 취해서 최적의 w를 구할 수 있다.
여기서 Negative logarithm으로 전개한 수식은 앞에서 소개했던 Regularization term이 포함된 Error function 을 최소화하는 것과 동일하게 볼 수 있다.
'인공지능 > 머신러닝 이론' 카테고리의 다른 글
1-6. Advantage of having the Posterior Probability (4) | 2021.03.26 |
---|---|
1-5. Introduction to Classification Problems (1) | 2021.03.26 |
1-4. Decision Theory (0) | 2021.03.26 |
1-3. Introduction to Model Selection (0) | 2021.03.26 |
1-1. Introduction to Statistical Pattern Recognition (0) | 2021.03.26 |