본문 바로가기

인공지능/머신러닝 이론

2-2. Maximum Likelihood and Least Squares


< 목차 >

  1. 용어정의
  2. Maximum likelihood and least squares

1. 용어정의

  • 특이값 (Singular value) : 특이값 분해할때 계산할 수 있으며, 이는 행렬을 대각화하는 방법으로 두 개의 직교행렬과 대각행렬을 얻을 수 있으며 이때 대각행렬이 포함하는 값을 특이값이라고 부른다.

2. Maximum likelihood and least squares

앞장에서 Curve fitting 문제에 대해 Maximum Likelihood 방법을 이용해 최적의 w와 β를 추정한 것처럼, 본 내용에서는 Linear basis function model에서 어떻게 w를 추정하고, 이것이 기존의 Least squares approach와 어떻게 연관있는지 확인할 수있다.

 

타겟 t를 deterministic function인 y(x, w)와 정규분포를 갖는 랜덤노이즈 ε 로 표현할 수 있다고 가정하면, 위의 수식으로 표현할 수 있다. 이때, 랜덤노이즈 ε는 0의 평균과 1/β의 분산의 정규분포를 갖는다고 하면 확률분포 p(t|x,w,β)는 다음와 같이 나타낼 수 있다.

 

이때, 입력데이터 X의 크기를 (DxN) 차원, basis function을 (NxM)차원이라고 한다면 여기에 상응하는 타겟벡터 t의 크기는 아래와 같이 나타난다.

 

위에서 각각 (Dx1) 크기를 갖는 벡터 x1, x2, x3, ..., x_N이 각각 독립적인 정규분포를 갖는다고 할때, 다음과 같은 Likelihood function으로 나타낼 수 있다.

 

 

Maximum likelihood를 계산하기 위해, 위의 수식에서 양변에 자연로그를 취하는데 이러한 이유는 각 정규분포 항이 곱해지는 형태를 덧셈의 형태로 변경하여 계산을 쉽게하기 위함이다. 따라서, 위의 내용으로 수식을 전개하면 다음과 같이 나타나며 likelihood function을 최대화하는 것이 sum of square error functions 을 최소화하는 것과 동일하다는 것을 알 수 있다.

 

이때, sum of square error functions 항은 매트릭스 형태로 간단히 나타낼 수 있고, 이는 나중에 w와 β에 대해 편미분하는데 계산하기 간단하다.

 

따라서, 최적의 w와 β 를 구하기 위해 likelihood function을 각각 w와 β에 대해 편미분하면 다음과 같다. 여기서 최적의 w인 w_ML의 값인 Φ는 'Moore-Penrose Psuedo inverse' 라고 알려져 있고, (ΦTΦ)이 singular 에 가까워질수록 즉, (ΦTΦ) 매트릭스의 특이값(singular value)이 너무 작으면 inverse(ΦTΦ) 의 특이값이 반대로 커지기 때문에 결국 overfitting이 발생하고 이러한 매트릭스를 ill-conditioned 이라고 표현한다.

 


728x90
반응형