< 목차 >
- 용어정의
- Least squares for computing 'w'
1. 용어정의
- One hot encoding : 카테고리 변수로 되어있는 데이터를 0과 1로 이루어진 이진수로 변환하며, 벡터의 크기를 늘려서 클래스 개수만큼 늘려서 표현하는 방식
- Trace : 행렬의 모든 대각성분들의 합
2. Least squares for computing 'w'
두 개 이상의 클래스를 갖는 Classification Problems 은 아래와 같은 Linear model로 간단히 표현될 수 있다.
이때 하나의 입력데이터 x 가 (D x 1)차원을 갖고 타겟값인 y가 (K x 1)차원을 갖는다고 가정하면, W는 (D x K) 차원의 매트릭스를 갖고 같은 조건으로 N개의 입력데이터 X로, y를 N개의 T로 개념을 확장시킬 수 있다.
이때 (1 x K) 차원을 갖는 하나의 t는 해당하는 클래스에 상응하는 t값만 1을 가지고 나머지는 0의 형태를 띄며, 이를 One hot encoding 이라고 한다.
이렇게 확장된 K개의 클래스를 갖는 Classification Problems 에서 Least Squares의 Error Function은 다음과 같이 Trace 를 이용해서 전개할 수 있으며, 이것을 W에 대해 편미분하여 Error Function을 최소로 하는 W는 아래와 같다.
하지만, 이 방법은 처음부터 p(t|x,w,β)의 maximum likelihood 가 정규분포를 갖는다고 가정한 상태로 접근하기 때문에, 0과 1의 이진값으로 표현되는 Classification Problems에서 문제가 발생하기도 한다.
위의 그래프는 입력데이터에 대해 Least Squares(자주색 선)와 Logistic Regression Model(초록색 선)를 이용해서 분류한 결과이며, 첫번째 결과는 둘 다 양호하게 분류된다. 하지만, 데이터(파란색 점)가 추가된 이후에는 더 이상 데이터가 정규분포 형태를 띄지않고 이 때문에 Least Squares 방법을 이용한 분류는 정확하지 않다.
마찬가지로, 세 가지 클래스의 입력데이터(빨강, 연두, 파랑색 점)에 대해 Least Squares(왼쪽와 Logistic Regression Model(오른쪽)를 이용해서 분류한 결과이다. Least Squares 방법을 이용해 분류한 결과 역시 정규분포를 갖는 t를 추론하는 가정으로 인해 오히려 정확하게 분류되지 못하고, 반대로 Logistic Regression Model을 이용했을 때는 잘 분류되는 것을 확인할 수 있다
'인공지능 > 머신러닝 이론' 카테고리의 다른 글
3-5. Probabilistic Generative Models (0) | 2021.04.01 |
---|---|
3-4. Fisher's Linear Discriminant (1) | 2021.03.31 |
3-2. Discriminant Functions (0) | 2021.03.31 |
3-1. Linear Models for Classification (0) | 2021.03.31 |
2-6. Overfitting and Condition Number (0) | 2021.03.29 |