본문 바로가기

데이터분석

"머신러닝 이론" 포스팅 완료 드디어 머신러닝 이론 에 대한 글 작성이 마무리 되었습니다 ! “패턴인식과 머신러닝 (크리스토퍼 비숍 지음)”에 관한 개괄적인 내용을 추려 작성하였으며, 통계적 패턴인식부터 회귀분석과 클래스 분류, 뉴럴네트워크, 서포트 벡터 머신, 클러스터링에 대한 주제를 중심으로 기술하였습니다. 모든 내용은 제3자의 추가적인 검토없이 작성되었기 때문에 분명히 다르게 혹은 틀리게 해석된 부분이 존재할 수 있으며, 향후 점진적인 자료의 개선이 가능하도록 피드백 및 개선의 여지를 남겨두었습니다. 내용을 발췌 혹은 사용하실 때는 말씀주시고, 반드시 TO THE MOON 블로그 출처 기입 부탁드리겠습니다. 감사합니다. 더보기
7-3. EM algorithm for Gaussian Mixtures 용어정의 Mixtures of Gaussians EM algorithm for Gaussian mixtures Comparison of EM algorithms 1. 용어정의 피드백 후 작성예정입니다. 2. Mixtures of Gaussians 가우시안 혼합 분포(Mixtures of Gaussians)은 복수의 가우시안 분포들의 선형 결합으로 실제데이터의 분포를 근사하는 방법으로 아래와 같은 그림으로 표현할 수 있다. 이는 아래 오른쪽 그림과 같이, 단일 가우시안 분포를 통해 데이터 분포를 표현하기엔 한계가 존재하고 복수의 혼합 분포를 사용해서 더 정확하게 표현할 수 있기 때문에 유용하게 사용되는 방법이다. 즉, 가우시안 혼합분포를 나타내기 위해서는 잠재변수(Latent variable).. 더보기
7-1. Mixture Models and Expectation-Maximization(EM) Algorithm 용어정의 Introduction 1. 용어정의 피드백 후 작성예정입니다. 2. Introduction 혼합모델(Mixture model)은 복잡한 확률분포를 알아내는데 활용할 수 있을 분만 아니라, 유사한 분포를 갖는 데이터들끼리 그룹화(Clustering) 하는데도 사용할 수 있다. 이러한 혼합모델의 추정은 아래와 같이 복잡하게 얽혀있는 관측데이터들 사이의 관계를 파악하는데 보다 직관적으로 확인할 수 있다. 따라서, 앞으로 작성될 7장의 내용에서는 Expectation-Maximization (EM)이라는 Two-step 알고리즘을 통해서 데이터들을 그룹화하고, 가우시안 혼합 분포에 적용하는 대표적 방법들을 설명한다. 더보기
6-4. Classification of a new data point 용어정의 Classification of a new data point 1. 용어정의 피드백 후 작성예정입니다. 2. Classification of a new data point 2021.04.05 - [인공지능/머신러닝 이론] - 6-3. Quadratic Optimization Problem 의 서포트 벡터 머신내용에 이어서, 서포트 벡터 머신으로 학습된 모델을 가지고 새로운 입력데이터를 제대로 분류하기 위해, 출력함수 y의 부호는 '<0' 혹은 '0' 으로 나타나며 해당하는 클래스로 구분된다. 이때 위의 전개과정에서 구한 'w'를 y에 관한 함수에 대입하여, 다음과 같이 y에 관해 새롭게 전개할 수 있다. 또한 앞의 글에서 소개된 KKT 조건을 만족하기 위해서는 모든 데이터에 관해 a.. 더보기
6-2. Margin of Support Vector Machine(SVM) 용어정의 Margin of support vector machine(SVM) Classification of the perpendicular distnace to the decision surface Classification of margin Simplification of margin 1. 용어정의 피드백 후 작성예정입니다. 2. Margin 2-1. Calculation of the perpendicular distance to the decision surface SVM에서 Margin의 개념은 굉장히 중요하기 때문에 수식전개를 통해 깊이있게 이해할 필요가 있다. 임의의 'x_A'와 'x_B'라는 데이터가 Decision boundary인 y(x) 위에 있다고 가정할 경우, 아래의 조.. 더보기
5-5. Introduction to Support Vector Machines(SVM) 용어정의 Introduction to support vector machines (SVM) 1. 용어정의 피드백 후 작성예정입니다. 2. Introduction to support vector machines (SVM) 서포트벡터머신, 즉 SVM은 MLP와 마찬가지로 데이터를 구분짓을 수 있는 선형 초평면(Hyperplane)을 찾아내는 것으로, Support vector라는 데이터만 이용하여 최적의 초평면을 결정하여 MLP보다 Generalization 을 향상시킬 수 있다. Support vector는 임의의 초평면에 가장 근접해있는 데이터들을 의미하는 것으로, Support vector 클래스간의 거리를 최대로 하는 최적의 초명편(Optimal hyperplane)을 찾아낸다. 이때, .. 더보기
5-1. Introduction to Neural Networks 용어정의 Objective of supervised learning From biology to artificial neural networks Neural networks as universal function approximators 1. 용어정의 해당 페이지를 참고해주세요. 2021.03.31 - [인공지능/머신러닝 이론] - 3-4. Fisher's Linear Discriminant 2. Objective of supervised learning 지도학습(Supervised Learning)은 입력데이터 x를 학습하고자 하는 출력값 y에 근사시키도록 변환하는 함수 f(x)를 찾는 것이다. 이는 크게 두 Classification 과 Regression 두 가지로 구분할 수 있는데, .. 더보기
4-5. Projection Pursuit (PP) 용어정의 Projection pursuit (PP) 1. 용어정의 아래 페이지를 참고해주세요. 2021.04.01 - [인공지능/머신러닝] - 4-1. Multivariate Analysis : PCA (1/2) 2. Projection pursuit (PP) Projection Pursuit(PP)방법은 기존의 데이터를 더 낮은 차원으로 변환시키며, 가장 "Interesting"한 차원을 찾는 것으로 아래 그림으로 나타낼 수 있다. PP는 고차원을 갖는 데이터의 경우에 발생하는 문제인 "curse of dimensionality" 를 피할 수 있는 multivariate analysis 방법으로, 앞서 설명했던 PCA나 ICA가 이 PP의 Special Case로 속하며, noisy 혹은 .. 더보기

728x90
반응형