본문 바로가기

행렬분해

구글의 페이지랭크(PageRank) 알고리즘 전체코드 및 결과에 대한 내용은 아래 GitHub 에 PDF 로 올려두었으니 참고해 직접 작성해보면 도움될 듯하다. GitHub주소: github.com/pjh5672/Machine_Learning/blob/master/Mathematics_for_Machine_Learning/PageRank.pdf 선형대수 개념을 바탕으로 구글의 페이지랭크(PageRank) 알고리즘을 구현해볼 수 있다. 만약 위의 그림과 같이 A, B, C, D, E, F 의 6개 사이트만 존재하는 네트워크망이 있고 각 사이트에서 다른 사이트로 이동할 확률 매트릭스 L 를 아래와 같이 결정하면, (1) 고유값 분해를 통한 방법, (2) Power-iteration 방법으로 각 사이트에 대해 중요도가 높은 순으로 가중치.. 더보기
2. 콘텐츠 기반 필터링 용어정의 데이터로딩 및 가공 장르 유사도 측정 콘텐츠 기반 필터링을 이용한 추천시스템 개발 추천결과 분석 및 왜곡데이터 이해 추천시스템 개선 1. 용어정의 피드백 후 작성예정입니다. TMDB 5000 Movies 데이터셋은 데이터셋 자료실 에 있습니다 전체코드는 https://github.com/pjh5672/Recommendation_System 에 올려두었습니다. 2. 데이터 로딩 및 가공 TMDB 5000 Movies 데이터셋은 4,803개 영화에 대한 영화제목, 개요, 장르, 인기도, 평점, 투표 수, 예산, 출시일, 키워드 등 20개의 메타정보(피처) 테이블로 구성된다. 이 중에서 주요 칼럼인 아이디, 영화제목, 장르, 평균 평점, 평균 투표 수, 인기도, 키워드, 개요설명 등을 뽑.. 더보기

728x90
반응형