2024년 패스트 캠퍼스 챌린지

패스트캠퍼스 환급챌린지 56일차 미션 (3월 27일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기

조이쓰 2024. 3. 27. 18:39

강의 내용 Review


📍배운내용📍

  • 비슷한 상품 추천 
  • 같이 살 상품 추천 

👉강의내용👈

비슷한 상품 추천

  • 이베이: 이커머스 다국적 기업 
  • 데이터 마이닝과 이커머스 : 비슷한 상품 추천, 아이템 베이스 콜라보레이트 필터 사용함 
  • 아이템을 산 고객을 모으고, 그 고객이 산 다른 아이템을 모음, 다른 아이템과의 유사도를 구해서 예측 함 
  • 유사도 구하기 위해 데이터 마이닝 사용 함 
  • 비슷한 아이템 추천 = 같이 본 상품으로 많이 되어있음
  • 쿼리(seed item) - 컨텍스트(개인화) 모델 - 아이템 
  • 리트라이벌, 랭킹 사용, 씨드 아이템이 쿼리로 들어감, 데이터 베이스에서 로깅을 남김
  • ML모델을 사용하고 있음, 레디스와 엘라스틱 서치로 피처를 가져오고 검색함
  • 리트라이벌: 휴리스틱 룰 베이스, 프로덕트 카탈로그: 계층구조(아이템이 프로덕트ID가 있다면 같은 ID의 다른 Item추천), coviewed ltems(같은 세션에서 같이 본 아이템), 타이틀 유사도(엘라스틱 서치)
  • 랭킹: 구매로그를 이용한 바이너리 분류, non-click vs purchase, 네거티브 샘플링 사용 
  • tf-idf기반, 인기도, 피드백, 모델: 로지스틱 회귀, 오프라인 메트릭, 온라인 메트릭(다양한 알고리즘을 확인함)
  • 이베이에서 비슷한 상품 추천: item to item CF는 베이스라인 될수 있음
  • 네거티브 레이블과 포지티브 레이블을 고를 때 피처의 차이를 찾을수 있음  

같이 살 상품 추천

  • 같이 산 상품, 같이 본 상품 = complementary 
  • 콜라보레이트 필터링을 사용하기 어려움 
  • 비슷한 상품이 추천 되기 쉬움 
  • 같이 살 상품을 추천하기 위해 카테고리 필터 만듦 
  • 아이템을 그룹핑 함, 유저 카테고리 메트릭스로 변환하고 시드 아이템 카테고리와 비슷한 카테고리 고름 
  • 연관된 프로덕트 구매 데이터를 사용함
  • 콜백 리트리벌: 유사한 상품의 같이 살 상품, 인기상품 추천
  • 필터: 카테고리 필터, 호환성 필터 
  • DeepRecs : 사이드 인포메이션 사용가능,  Top-K 결과 사용, 오프라인 계산 
  • 아키텍처: 스파크를 이용해서 온라인 계산, GPU를 이용해서 오프라인 계산 
  • ANN은 벡터가 있고  벡터를 넣어서 계산
  • 오프라인: KNN은 비슷한 상품을 계산해서 key value에서 미리 계산해서 저장해놓음, 쿼리 벡터가 달라질수없음 
  • 이진 분류와 비슷한 상품 추천
  • 특징: 단순한 MF는 프로덕션에서 스팔스 한 문제 때문에 사용하기 어려움 
  • 오프라인인 컴퓨테이션을 기반으로 큰 스케일 추천 시스템 만들수있음 

공부사진 


 

56일차 후기


 

전체적인 흐름에 대해 배웠다. 

 

 

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/48sS29N