본문 바로가기

인공지능/머신러닝 이론

1-2. Probabilistic Perspective of Curve Fitting


< 목차 >

  1. 용어정의
  2. Probabilistic perspective of curve fitting

1. 용어정의

  • Error Function : Curve Fitting으로 계산된 함수와 각 측정값과의 제곱오차합(SSE, the sum of squared errors)
  • Regularization : '정규화'는 과적합 문제를 방지하기 위해서, curve fitting으로 계산된 함수계수 중 중요하지 않은 계수들을 작게 만들어서 모델에 미치는 영향을 최소화 시켜주는 방법
  • Likelihood Function : 우도(가능도) 함수, 어떠한 a 에 대해 b가 도출되었다면 a의 변화에 따른 b의 결과(분포)를 살펴보는 것 

2. Probabilistic perspective of curve fitting

위에서 언급한 curve fitting 을 확률적 관점에서 접근하기 위해, 주어진 입력데이터 x에 상응하는 타겟데이터 t는 y(x, w)의 평균과 1/β의 분산을 갖는 정규분포를 가진다고 가정한다.

이때, 학습데이터셋 (x, t)에 관한 Likelihood function 은 아래와 같이 나타낼 수 있다. (수식 뒤에 * 는 학습데이터가 직전 n-1 에서의 정규분포와 n에서의 정규분포가 독립적이라고 두는 것을 의미한다. )

이후 양변에 자연로그를 취하면 아래와 같은 수식으로 전개할 수 있고, 전개된 식에서 Likelihood function을 최대화하는 것이 곧 Error function을 최소화하는 것과 동일하다는 것을 알 수 있다. 그러므로, 최적의 w_ml 은 앞에서 언급했던 Error function에서 w*를 구하는 방식과 동일하게 구해질 수 있다. (ml은 Maximum Likelihood 의 약자를 가르킴)

 

1/β_ml 또한 위의 Likelihood function 을 β 에 대해 편미분한 뒤, 0이 되는 β값 도출하면 아래와 같이 1/β_ml을 구할 수 있다. 

 

따라서, Maximum likelihood method로 구한 w_ml과 β_ml 를 통해, 앞에 언급한 x에 대한 t의 확률분포는 다음과 같이 나타내진다.

 

이어서, 베이지안 이론을 통해 w 를 추정하기 위해서 아래와 같은 수식으로 전개할 수 있고 앞서 구했던 p(t|x, w, β)와 아래 p(w|α) 를 각 항에 대입한다.

 

따라서, 아래의 식을 얻을 수 있고 negative logarithm 을 취해서 최적의 w를 구할 수 있다. 

 

여기서 Negative logarithm으로 전개한 수식은 앞에서 소개했던 Regularization term이 포함된 Error function 을 최소화하는 것과 동일하게 볼 수 있다.


728x90
반응형