< 목차 >
- 용어정의
- Multivariate analysis : PCA (1/2)
- Introduction
- Principal component analysis (PCA)
1. 용어정의
- Orthonormal : 서로 직교하며, 그 크기가 1인 두 벡터간의 성질을 말함
2. Introduction
여러 개의 종속 변수를 동시에 분석하는 방법인 다변량분석(Multivariate analysis) 는 'Linear Transform Methods'으로 Transformation matrix를 통해 아래의 경우에 활용할 수 있다.
3. Principal component analysis (PCA)
주성분 분석이라고 하며, 데이터를 분산이 가장 큰 부분을 기준으로 하는 새로운 축을 찾는 것이다. 아래 그림과 같이 기존의 축 x1, x2 는 각 축에서의 데이터의 평균이 '0'라고 가정되어 있으며, 분산을 최대화할 수 있는 축(y1)을 첫번째 주성분으로 두고 두번째로 분산이 큰 축(y2)을 두번째 주성분으로 둔다.
이때, 두 축은 'orthonormal' 한데, 이러한 orthogonal 한 각 주성분(y)의 상관관계를 나타내는 Correlation matrix는 최소가 된다. 위의 그림에서 나타나듯, X → Y 로의 축 변환은 Transformation matrix인 'P'에 의해 일어나고 P는 축을 회전시키고 축소/확대 시키는 역할을 수행하는 것을 알 수 있다.
위의 그림은 P 행렬을 이용해서 X 에서 Y 로 어떻게 축 변환이 일어나는지 수식과 연관지어 보여주는 그림이다. 2차원 크기를 가지는 X에 대해 P 또한 2차원 행렬을 가지며, 내적을 통해 x1을 P1에 대한 축(P1·x1)으로 사영시키고 x2를 P2에 대한 축(P2·x2)으로 사영시킨다. 이렇게 변환된 축은 'x_i'에서 새로운 'y_i'에 대한 방향벡터를 생성하며 이것이 PCA의 기본원리이다.
이러한 PCA의 Projection matrix는 'Eigenvector Decomposition' 방법을 이용해서 구할 수 있으며, 순서는 아래와 같다.
< PCA algorithm > |
1. Construct a data matrix X 2. Subtract the mean from each measurement so that E(X)=0 3. Construct a covariance matrix C_x 4. Solve an eigenvalue problem 5. Calculate C_y ( find largest 'λ', principal component, in C_y matrix that maximize the variance of X) |
'인공지능 > 머신러닝 이론' 카테고리의 다른 글
4-3. Independent Component Analysis (ICA) (0) | 2021.04.02 |
---|---|
4-2. Multivariate Analysis : PCA (2/2) (0) | 2021.04.02 |
3-9. Iterative Reweighted Least Squares (0) | 2021.04.01 |
3-8. Logistic Regression (0) | 2021.04.01 |
3-7. Linear Basis Function Model (0) | 2021.04.01 |