< 목차 >
- 용어정의
- Model selection
1. 용어정의
- 아래페이지의 용어정의를 참고해주세요.
2. Model selection
적은 양의 데이터셋을 가지고있을 때, 학습모델의 overfitting을 방지하고 모델이 적절한 시점에 학습을 완료했는지 검증하는 방법은 다음과 같다.
(1) K-fold cross-validation
- 모든 데이터를 k개의 균등한 비율로 학습용(training set)과 테스트용(test set)으로 구분지어, 랜덤하게 k-1개의 학습용 데이터를 선택하여 학습하고 나머지 데이터를 가지고 테스트한다. 이것을 k번 반복하여 모델의 성능을 검증한다.
- 간단하고 빠르지만, 매번 다른 데이터셋을 뽑을 때마다 무작위성(randomness)가 존재하여 그 결과가 달라질 수 있다.
(2) Leave-one-out (Jack-Knife)
- 총 데이터 샘플 수(N)만큼 모델을 만들고, 하나를 제외한 나머지 샘플데이터를 통해 모델을 학습시키며 제외한 하나의 샘플을 통해 테스트를 수행하여 N개의 모델성능에 대해 샘플 수만큼 평균내는 방법이다.
- 모든 샘플 수만큼 한번씩 모두 테스트를 진행하기 때문에 무작위성(randomness)가 존재하지 않으며, k-fold cross-validation과 다르게 안정적인 결과를 얻을 수 있다.
- 다만, 샘플 수만큼 모델을 학습시키고 테스트해야하기 때문에 computing time이 오래 걸릴 수 있다.
(3) Akaike Information Criterion (AIC)
- 여러가지 변수로 학습한 통계모델들의 성능을 서로 비교할 수 있게 해주며, 그 중 최선의 모델을 선택할 수 있게 해준다.
- 관련내용: http://chukycheese.github.io/statistics/aic
728x90
반응형
'인공지능 > 머신러닝 이론' 카테고리의 다른 글
1-6. Advantage of having the Posterior Probability (4) | 2021.03.26 |
---|---|
1-5. Introduction to Classification Problems (1) | 2021.03.26 |
1-4. Decision Theory (0) | 2021.03.26 |
1-2. Probabilistic Perspective of Curve Fitting (0) | 2021.03.26 |
1-1. Introduction to Statistical Pattern Recognition (0) | 2021.03.26 |