머신러닝 썸네일형 리스트형 3. 아이템 기반 최근집 이웃 협업 필터링 용어정의 데이터 가공 및 변환 영화간 유사도 산출 최근접 이웃 협업 필터링을 이용한 개인화 영화 추천시스템 개발 1. 용어정의 피드백 후 작성예정입니다. MovieLens 데이터셋은 데이터셋 자료실 에 있습니다. 전체코드는 https://github.com/pjh5672/Recommendation_System 에 올려두었습니다. 2. 데이터 가공 및 변환 협업 필터링 기반의 영화 추천을 위해서는 사용자가 영화 평점을 매긴 사용자ㅡ영화 평점 매트릭스 데이터셋이 필요하다. 이를 위해 MovieLens 데이터셋을 다운받아 pandas.DataFrame으로 로딩한다. 영화에 대한 정보인 movies.csv 파일은 9742개 영화에 대한 movieId, title, genres 등으로 구성되며, 영화.. 더보기 2. 콘텐츠 기반 필터링 용어정의 데이터로딩 및 가공 장르 유사도 측정 콘텐츠 기반 필터링을 이용한 추천시스템 개발 추천결과 분석 및 왜곡데이터 이해 추천시스템 개선 1. 용어정의 피드백 후 작성예정입니다. TMDB 5000 Movies 데이터셋은 데이터셋 자료실 에 있습니다 전체코드는 https://github.com/pjh5672/Recommendation_System 에 올려두었습니다. 2. 데이터 로딩 및 가공 TMDB 5000 Movies 데이터셋은 4,803개 영화에 대한 영화제목, 개요, 장르, 인기도, 평점, 투표 수, 예산, 출시일, 키워드 등 20개의 메타정보(피처) 테이블로 구성된다. 이 중에서 주요 칼럼인 아이디, 영화제목, 장르, 평균 평점, 평균 투표 수, 인기도, 키워드, 개요설명 등을 뽑.. 더보기 "머신러닝 이론" 포스팅 완료 드디어 머신러닝 이론 에 대한 글 작성이 마무리 되었습니다 ! “패턴인식과 머신러닝 (크리스토퍼 비숍 지음)”에 관한 개괄적인 내용을 추려 작성하였으며, 통계적 패턴인식부터 회귀분석과 클래스 분류, 뉴럴네트워크, 서포트 벡터 머신, 클러스터링에 대한 주제를 중심으로 기술하였습니다. 모든 내용은 제3자의 추가적인 검토없이 작성되었기 때문에 분명히 다르게 혹은 틀리게 해석된 부분이 존재할 수 있으며, 향후 점진적인 자료의 개선이 가능하도록 피드백 및 개선의 여지를 남겨두었습니다. 내용을 발췌 혹은 사용하실 때는 말씀주시고, 반드시 TO THE MOON 블로그 출처 기입 부탁드리겠습니다. 감사합니다. 더보기 7-3. EM algorithm for Gaussian Mixtures 용어정의 Mixtures of Gaussians EM algorithm for Gaussian mixtures Comparison of EM algorithms 1. 용어정의 피드백 후 작성예정입니다. 2. Mixtures of Gaussians 가우시안 혼합 분포(Mixtures of Gaussians)은 복수의 가우시안 분포들의 선형 결합으로 실제데이터의 분포를 근사하는 방법으로 아래와 같은 그림으로 표현할 수 있다. 이는 아래 오른쪽 그림과 같이, 단일 가우시안 분포를 통해 데이터 분포를 표현하기엔 한계가 존재하고 복수의 혼합 분포를 사용해서 더 정확하게 표현할 수 있기 때문에 유용하게 사용되는 방법이다. 즉, 가우시안 혼합분포를 나타내기 위해서는 잠재변수(Latent variable).. 더보기 7-2. EM algorithm for K-means clustering 용어정의 EM algorithm for K-means clustering 1. 용어정의 피드백 후 작성예정입니다. 2. EM algorithm for K-means clustering D 크기의 차원을 가진 N개의 데이터가 있다고 가정하면, K-means Clustering은 이 데이터들의 분포를 K개의 집단으로 나누는 것이다. K개의 집단으로 구분하기 위해, 데이터셋에 대한 "Distortion measure" 를 구하고 이를 최소화하는데 여기서 "Distortion measure"는 아래의 수식으로 계산된다. 여기서 μ_k 는 K번째 Cluster에 관한 평균이고, r_nk는 n번째 데이터가 K 번째 Cluster에 존재하면 '1'의 값을 갖고 아닐 경우 '0'의 값을 갖는다. 결국, E.. 더보기 7-1. Mixture Models and Expectation-Maximization(EM) Algorithm 용어정의 Introduction 1. 용어정의 피드백 후 작성예정입니다. 2. Introduction 혼합모델(Mixture model)은 복잡한 확률분포를 알아내는데 활용할 수 있을 분만 아니라, 유사한 분포를 갖는 데이터들끼리 그룹화(Clustering) 하는데도 사용할 수 있다. 이러한 혼합모델의 추정은 아래와 같이 복잡하게 얽혀있는 관측데이터들 사이의 관계를 파악하는데 보다 직관적으로 확인할 수 있다. 따라서, 앞으로 작성될 7장의 내용에서는 Expectation-Maximization (EM)이라는 Two-step 알고리즘을 통해서 데이터들을 그룹화하고, 가우시안 혼합 분포에 적용하는 대표적 방법들을 설명한다. 더보기 6-4. Classification of a new data point 용어정의 Classification of a new data point 1. 용어정의 피드백 후 작성예정입니다. 2. Classification of a new data point 2021.04.05 - [인공지능/머신러닝 이론] - 6-3. Quadratic Optimization Problem 의 서포트 벡터 머신내용에 이어서, 서포트 벡터 머신으로 학습된 모델을 가지고 새로운 입력데이터를 제대로 분류하기 위해, 출력함수 y의 부호는 '<0' 혹은 '0' 으로 나타나며 해당하는 클래스로 구분된다. 이때 위의 전개과정에서 구한 'w'를 y에 관한 함수에 대입하여, 다음과 같이 y에 관해 새롭게 전개할 수 있다. 또한 앞의 글에서 소개된 KKT 조건을 만족하기 위해서는 모든 데이터에 관해 a.. 더보기 6-3. Quadratic Optimization Problem 용어정의 Quadratic optimization problem Solving a constrained optimization using Lagrange multipliers Comparison between the primal and dual problems 1. 용어정의 Lagrange multiplier : 라그랑주 승수법, 제한조건이 있는 최적화 문제를 풀기 위한 방법으로 제한조건 내에서 주어진 함수의 극댓값과 극솟값을 찾는 것이다. 2. Quadratic optimization problem 2-1. Solving a constrained optimization using Lagrange multipliers ||w||에 관한 2차 최적화 문제는 위에서 주어진 constraint를 .. 더보기 이전 1 2 3 4 5 6 ··· 8 다음 목록 더보기