< 목차 >
- 용어정의
- Overview of pattern recognition and machine learning
- Polynomial curve fitting
- Introduction to curve fitting
- Error function and selection of weights
- Overfitting problem
1. 용어정의
- 통계적 패턴인식 : 관측된 데이터로부터 통계적 기법을 이용하여 중요한 특징이나 속성을 추출하고, 새로운 입력 데이터를 식별할 수 있는 부류로 분류하는 것
- 전처리(Preprocessing) : 다수의 데이터에서 공통적인 혹은 반복적 특징이나 속성을 추출하는데 사용되는 기법 혹은 과정
- Prediction : 향후 발생할 사건에 대해 예측하는 것 (예로, 자동 완성 텍스트, 주식가격 변동 등이 있음)
- Decision Making : 여러 변수조건 하에서 최적의 선택을 도출하는 것 (예로, 집 구매를 위해 고려하는 변수는 접근성, 주위환경, 가격 등이 있고 기존데이터 학습을 통해 최선의 결정을 도출할 수 있음)
- Curve Fitting : '곡선 맞춤'이라고 하며, 평면좌표 위 흩어진 점에 대해 알맞은 곡선의 함수를 계산하는 것. 함수와 각 측정값과의 제곱오차합(SSE, the sum of squared errors)을 구하고 그것이 최소가 되도록 각 변수에 계수를 부여해 반복계산하는 방법
- Error Function : Curve Fitting으로 계산된 함수와 각 측정값과의 제곱오차합(SSE, the sum of squared errors)
- Underfitting : 데이터가 너무 적거나 학습이 제대로 이뤄지지 않아 학습된 모델이 데이터를 분류하지 못하는 현상
- Overfitting : '과적합'이라고 하며, 기존의 샘플데이터만 가지고 학습을 지나치게 많이하여 기존데이터에 대해서는 높은 정확도를 가지지만 새로운 데이터에 대해서는 학습모델의 정확도가 급격히 떨어지는 현상
- Regularization : '정규화'는 과적합 문제를 방지하기 위해서, Curve Fitting으로 계산된 함수계수 중 중요하지 않은 계수들을 작게 만들어서 모델에 미치는 영향을 최소화 시켜주는 방법
2. Overview of pattern recognition and machine learning
통계적 패턴인식(Statistical Pattern Recognition)은 크게 세 가지 과정으로 나뉜다.
(1) 데이터 전처리
- 전처리(Preprocessing)을 거쳐 데이터로부터 특징을 추출하고, 이러한 특징은 모델의 입력값으로 사용된다.
(2) 모델학습
- 지도학습과 비지도학습으로 나뉘며, 데이터가 어디에 속해있는지에 대한 정보(Label)가 주어진 경우 지도학 (Supervised learning)이라고 하며, 모를 경우에는 비지도학습(Unsupervised learning)이라고 한다.
- 일반적으로는 데이터가 어디에 속해있는지 알지 못하는 경우가 많기 때문에 비지도 학습(Unsupervised learning)의 중요성이 커지고 있으나, 현실적 문제에 적용하기에는 지도학습에 비해 훨씬 어렵다.
(3) 일반화
- 학습모델은 새로운 입력데이터를 받아서 데이터가 어디에 속해있는지 기존의 학습데이터에 근거해 추론하며, 이는 Prediction이나 Decision Making에 적용된다.
3. Polynomial curve fitting
모델의 (지도)학습은 기본적으로 Polynomial Curve Fitting 을 통해 설명할 수 있다.
3-1. Introduction to curve fitting
Polynomial Curve Fitting에 사용되는 데이터셋은 다음과 같이 N개의 입력데이터의 vec(x)와 이에 상응하는 N개 타겟값의 vec(t)로 구성되며, vec(x)를 이용해서 vec(t)에 근사하는 M개의 가중치(w)를 갖는 적절한 차수의 다항식을 찾아내는 것이다.
3-2. Error function and selection of weights
M개 가중치들의 벡터 vec(w)를 구하기 위해, Error Function(E)을 이용하며, E를 w에 대해 편미분하여 다항식으로부터 예측된 값과 타겟값의 차이를 최소화하는 최적의 w*를 찾을 수 있다.
3-3. Overfitting problem
이때, 다항식의 차수 M의 결정도 필요한데 이는 학습모델의 복잡도(Complexity)를 나타내며, M의 증가/감소에 따라 추론된 그래프는 아래 그림과 같다.
위의 그래프에서 파란색 점이 타겟값(t)이며, 초록색 선이 타겟값에 대한 다항식 그래프(정답), 빨간색 선이 다항식 차수(M)에 따라 예측된 다항식 그래프이다.
- M=0, M=1 일 경우, 다항식은 선형적으로 나타나며 적합하지 않은 것으로 보인다. 이러한 형태를 주로 "underfitting" 이라고 한다.
- M=3 일 경우, 다항식은 초록색 선과 유사한 그래프를 가진다.
- M=9 일 경우, 다항식은 타겟값(t)에서 오차는 없지만 초록색 선과 그래프가 유사하지 않고, 때문에 새로운 입력값에 대해 오차가 보장되지 않는다. M=9 의 경우처럼 학습데이터간의 오차는 거의 없으나, 새로운 입력값에 대한 오차를 보장하지 못하는 문제를 "overfitting" 이라고 부른다.
이러한 overfitting을 방지하기 위해서 고전적으로 다음과 같은 방법이 있다.
(1) 데이터수 증가
- 결정하는 다항식 차수(M)의 5~10배 정도 데이터수(N)를 증대시킨다.
(2) Regularization (Weight Decay)
- Error function에 가중치 값에 대한 새로운 항(Regularization term)을 추가한다.
이때, 초모수(Hyperparameter)인 Lambda(λ) 변화에 따른 다항식 그래프는 아래 그림과 같다.
위의 그래프에서 마찬가지로 파란색 점이 타겟값(t)이며, 초록색 선이 타겟값에 대한 다항식 그래프(정답), 빨간색 선이 Lambda(λ) 증가/감소에 따라 예측된 다항식 그래프이다.
- ln λ = -18 일 경우, Regularization term 에 가중치를 균형있게 두어 9차 다항식임에도 불구하고 초록색 선과 유사한 그래프를 가지는 다항식을 가진다.
- ln λ = 0 일 경우, Regularization term에 가중치가 더욱 증가되어 Error function의 역할비중이 감소되어, 모델이 더욱 Rigid 해진다.
- ln λ = ∞ 일 경우, 즉 λ = 0 인 경우인데 이때는 Regularization term이 0이 되어 해당기능을 상실하고, 앞에서 설명한 Overfitting 이 발생하게 된다.
PS) Christopher Bishop의 "Pattern Recognition and Machine Learning" 의 내용을 토대로 작성하였습니다.
'인공지능 > 머신러닝 이론' 카테고리의 다른 글
1-6. Advantage of having the Posterior Probability (4) | 2021.03.26 |
---|---|
1-5. Introduction to Classification Problems (1) | 2021.03.26 |
1-4. Decision Theory (0) | 2021.03.26 |
1-3. Introduction to Model Selection (0) | 2021.03.26 |
1-2. Probabilistic Perspective of Curve Fitting (0) | 2021.03.26 |