2024년 패스트 캠퍼스 챌린지
패스트캠퍼스 환급챌린지 56일차 미션 (3월 27일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기
조이쓰
2024. 3. 27. 18:39
강의 내용 Review
📍배운내용📍
- 비슷한 상품 추천
- 같이 살 상품 추천
👉강의내용👈
비슷한 상품 추천
- 이베이: 이커머스 다국적 기업
- 데이터 마이닝과 이커머스 : 비슷한 상품 추천, 아이템 베이스 콜라보레이트 필터 사용함
- 아이템을 산 고객을 모으고, 그 고객이 산 다른 아이템을 모음, 다른 아이템과의 유사도를 구해서 예측 함
- 유사도 구하기 위해 데이터 마이닝 사용 함
- 비슷한 아이템 추천 = 같이 본 상품으로 많이 되어있음
- 쿼리(seed item) - 컨텍스트(개인화) 모델 - 아이템
- 리트라이벌, 랭킹 사용, 씨드 아이템이 쿼리로 들어감, 데이터 베이스에서 로깅을 남김
- ML모델을 사용하고 있음, 레디스와 엘라스틱 서치로 피처를 가져오고 검색함
- 리트라이벌: 휴리스틱 룰 베이스, 프로덕트 카탈로그: 계층구조(아이템이 프로덕트ID가 있다면 같은 ID의 다른 Item추천), coviewed ltems(같은 세션에서 같이 본 아이템), 타이틀 유사도(엘라스틱 서치)
- 랭킹: 구매로그를 이용한 바이너리 분류, non-click vs purchase, 네거티브 샘플링 사용
- tf-idf기반, 인기도, 피드백, 모델: 로지스틱 회귀, 오프라인 메트릭, 온라인 메트릭(다양한 알고리즘을 확인함)
- 이베이에서 비슷한 상품 추천: item to item CF는 베이스라인 될수 있음
- 네거티브 레이블과 포지티브 레이블을 고를 때 피처의 차이를 찾을수 있음
같이 살 상품 추천
- 같이 산 상품, 같이 본 상품 = complementary
- 콜라보레이트 필터링을 사용하기 어려움
- 비슷한 상품이 추천 되기 쉬움
- 같이 살 상품을 추천하기 위해 카테고리 필터 만듦
- 아이템을 그룹핑 함, 유저 카테고리 메트릭스로 변환하고 시드 아이템 카테고리와 비슷한 카테고리 고름
- 연관된 프로덕트 구매 데이터를 사용함
- 콜백 리트리벌: 유사한 상품의 같이 살 상품, 인기상품 추천
- 필터: 카테고리 필터, 호환성 필터
- DeepRecs : 사이드 인포메이션 사용가능, Top-K 결과 사용, 오프라인 계산
- 아키텍처: 스파크를 이용해서 온라인 계산, GPU를 이용해서 오프라인 계산
- ANN은 벡터가 있고 벡터를 넣어서 계산
- 오프라인: KNN은 비슷한 상품을 계산해서 key value에서 미리 계산해서 저장해놓음, 쿼리 벡터가 달라질수없음
- 이진 분류와 비슷한 상품 추천
- 특징: 단순한 MF는 프로덕션에서 스팔스 한 문제 때문에 사용하기 어려움
- 오프라인인 컴퓨테이션을 기반으로 큰 스케일 추천 시스템 만들수있음
공부사진
56일차 후기
전체적인 흐름에 대해 배웠다.
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.