본문 바로가기

데이터 분석

코세라 Machine Learning 수료 코세라에서 가장 유명한 온라인강의 중 하나인 "Machine Learning" 강의는 세계적 AI분야의 대가인 Andrew Ng 교수님이 머신러닝에 대해 설명해주는 강의이다. 이 강의는 Specialization이 아닌 단일코스로 진행되며 총 11주정도의 학습내용으로 구성되어 있다. 2-9주차까지는 Matlab/Octave 툴을 사용하여 직접 코드를 구현하는 과제가 주어지며, 문제퀄리티가 강의에서 다루고 있는 내용을 조금더 확실히 이해하는데 큰 도움이 될만큼 좋았다. 강의에서 다루고 있는 머신러닝 관련된 내용은 아래와 같다. Linear Regression Logistic Regression Regularization Neural Networks - Represent.. 더보기
SQL 개발자(SQLD) 자격시험 합격 SQL의 기본 사용법, 데이터베이스, 테이블 설계 시 고려해야 할 부분에 대한 능력을 검증하는 시험으로, 아래와 같은 내용으로 시험을 보게 된다. 1. 데이터 모델링의 이해 데이터 모델 및 엔터티, 속성, 관계와 식별자의 종류 테이블 정규화 및 반정규화의 종류 및 그에 따른 성능비교 데이터베이스 구조 및 성능, 분산 데이터베이스 정의 2. SQL 이해 및 활용 관계형 데이터베이스에 대한 이해 DDL, DML, TCL 의 정의 및 종류 WHERE, 함수, GROUP BY, HAVING, ORDER BY 절 에 대한 사용법 SELF, INNER, OUTER JOIN 에 대한 정의 서브쿼리 및 윈도우 함수 DCL 의 정의 및 사용 절차형 SQL에 대한 이해 규칙기반/비용기반 옵티마이저의 이해 조인 수행 원리 .. 더보기
데이터 분석 준전문가(ADsP) 자격시험 합격 데이터 분석 준전문가, Advanced Data Analytics Semi-Professional (ADsP) 라고 데이터 산업 진흥원에서 주관하는 시험이며, 데이터 분석을 위한 데이터이해, 기획, 방법론, 분석기술을 전 범위에 걸쳐 개론 수준에서 이해하고 있는지 검증하는 시험이다. 때문에 배경지식이 없어도, 비전공이어도, 데이터분석경험이 없어도 의지만 있다면 한달 이내의 준비기간으로 충분히 합격할 수 있는 수준의 시험이다. 나같은 경우에는 이미 기본적인 내용을 알고있었고 회사에서 실무를 수행하고 있어서 2주의 기간동안 수월하게 준비했고 기출문제 두번 돌려보고 가뿐하게 합격했다. 사실 ADsP 를 공부하면서 데이터나 기술적인 분석방법은 "그냥 이런 것들이 있다~" 정도로 설명하고 있어서 크게 도움이 되지.. 더보기
5. Surprise 라이브러리를 이용한 추천시스템 개발 용어정의 Surprise 패키지 소개 Surprise 주요 모듈 OS 파일데이터를 Surprise 데이터셋으로 로딩 Pandas Dataframe 을 Surprise 데이터셋으로 로딩 Surprise 추천 알고리즘 클래스 베이스라인 평점 교차검증과 하이퍼 파라미터 튜닝 Surprise 를 이용한 개인화 영화 추천시스템 개발 1. 용어정의 피드백 후 작성예정입니다. MovieLens 데이터셋은 데이터셋 자료실 에 있습니다. 2. Surprise 패키지 소개 파이썬 기반의 추천 시스템 구축을 위한 전용 패키지 중 하나인 Surprise 는 파이썬 기반에서 사이킷런과 유사한 API 와 프레임워크를 제공하여, 추천 시스템의 전반적인 알고리즘을 이해하고 사이킷런 사용경험이 있으면 쉽게 사용할 수 있다.. 더보기
코세라 머신러닝 case study 수료 코세라에서 제공하는 "Machine Learning Foundations" 강의를 이수하였다. 이번 강의는 개론 수준에서 머신러닝이 활용되는 대표적인 5가지 분야에 대해 알려준다. 각각은 Regression, Classification, Clustering, Recommendation, Deep Learing(Image Recognition) 이며, 분야별 Case Study는 다음과 같다. 집값예측하기 긍정/부정적 감정 분석하기 위키피디아 문서를 활용하여 유사한 인물들 찾기 개인화된 노래추천하기 고전 머신러닝을 활용한 이미지 분류와 딥러닝을 활용한 이미지분류 성능 비교해보기 딥러닝을 활용하여 유사한 이.. 더보기
3. 아이템 기반 최근집 이웃 협업 필터링 용어정의 데이터 가공 및 변환 영화간 유사도 산출 최근접 이웃 협업 필터링을 이용한 개인화 영화 추천시스템 개발 1. 용어정의 피드백 후 작성예정입니다. MovieLens 데이터셋은 데이터셋 자료실 에 있습니다. 전체코드는 https://github.com/pjh5672/Recommendation_System 에 올려두었습니다. 2. 데이터 가공 및 변환 협업 필터링 기반의 영화 추천을 위해서는 사용자가 영화 평점을 매긴 사용자ㅡ영화 평점 매트릭스 데이터셋이 필요하다. 이를 위해 MovieLens 데이터셋을 다운받아 pandas.DataFrame으로 로딩한다. 영화에 대한 정보인 movies.csv 파일은 9742개 영화에 대한 movieId, title, genres 등으로 구성되며, 영화.. 더보기
7-2. EM algorithm for K-means clustering 용어정의 EM algorithm for K-means clustering 1. 용어정의 피드백 후 작성예정입니다. 2. EM algorithm for K-means clustering D 크기의 차원을 가진 N개의 데이터가 있다고 가정하면, K-means Clustering은 이 데이터들의 분포를 K개의 집단으로 나누는 것이다. K개의 집단으로 구분하기 위해, 데이터셋에 대한 "Distortion measure" 를 구하고 이를 최소화하는데 여기서 "Distortion measure"는 아래의 수식으로 계산된다. 여기서 μ_k 는 K번째 Cluster에 관한 평균이고, r_nk는 n번째 데이터가 K 번째 Cluster에 존재하면 '1'의 값을 갖고 아닐 경우 '0'의 값을 갖는다. 결국, E.. 더보기
6-4. Classification of a new data point 용어정의 Classification of a new data point 1. 용어정의 피드백 후 작성예정입니다. 2. Classification of a new data point 2021.04.05 - [인공지능/머신러닝 이론] - 6-3. Quadratic Optimization Problem 의 서포트 벡터 머신내용에 이어서, 서포트 벡터 머신으로 학습된 모델을 가지고 새로운 입력데이터를 제대로 분류하기 위해, 출력함수 y의 부호는 '<0' 혹은 '0' 으로 나타나며 해당하는 클래스로 구분된다. 이때 위의 전개과정에서 구한 'w'를 y에 관한 함수에 대입하여, 다음과 같이 y에 관해 새롭게 전개할 수 있다. 또한 앞의 글에서 소개된 KKT 조건을 만족하기 위해서는 모든 데이터에 관해 a.. 더보기

728x90
반응형