본문 바로가기

인공지능/머신러닝 이론

4-1. Multivariate Analysis : PCA (1/2)


< 목차 >

  1. 용어정의
  2. Multivariate analysis : PCA (1/2)
    1. Introduction
    2. Principal component analysis (PCA)

1. 용어정의

  • Orthonormal : 서로 직교하며, 그 크기가 1인 두 벡터간의 성질을 말함

2. Introduction

여러 개의 종속 변수를 동시에 분석하는 방법인 다변량분석(Multivariate analysis) 는 'Linear Transform Methods'으로 Transformation matrix를 통해 아래의 경우에 활용할 수 있다.

 


3. Principal component analysis (PCA)

주성분 분석이라고 하며, 데이터를 분산이 가장 큰 부분을 기준으로 하는 새로운 축을 찾는 것이다. 아래 그림과 같이 기존의 축 x1, x2 는 각 축에서의 데이터의 평균이 '0'라고 가정되어 있으며, 분산을 최대화할 수 있는 축(y1)을 첫번째 주성분으로 두고 두번째로 분산이 큰 축(y2)을 두번째 주성분으로 둔다.

 


이때, 두 축은 'orthonormal' 한데, 이러한 orthogonal 한 각 주성분(y)의 상관관계를 나타내는 Correlation matrix는 최소가 된다. 위의 그림에서 나타나듯, X → Y 로의 축 변환은 Transformation matrix인 'P'에 의해 일어나고 P는 축을 회전시키고 축소/확대 시키는 역할을 수행하는 것을 알 수 있다.

 

 

위의 그림은 P 행렬을 이용해서 X 에서 Y 로 어떻게 축 변환이 일어나는지 수식과 연관지어 보여주는 그림이다. 2차원 크기를 가지는 X에 대해 P 또한 2차원 행렬을 가지며, 내적을 통해 x1을 P1에 대한 축(P1·x1)으로 사영시키고 x2를 P2에 대한 축(P2·x2)으로 사영시킨다. 이렇게 변환된 축은 'x_i'에서 새로운 'y_i'에 대한 방향벡터를 생성하며 이것이 PCA의 기본원리이다.

 

이러한 PCA의 Projection matrix는 'Eigenvector Decomposition' 방법을 이용해서 구할 수 있으며, 순서는 아래와 같다.

 

< PCA algorithm >
1. Construct a data matrix X

2. Subtract the mean from each measurement so that E(X)=0

3. Construct a covariance matrix C_x

4. Solve an eigenvalue problem

5. Calculate C_y ( find largest 'λ', principal component, in C_y matrix that maximize the variance of X)

 

 


 

728x90
반응형