2024년 패스트 캠퍼스 챌린지

패스트캠퍼스 환급챌린지 42일차 미션 (3월 13일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기

조이쓰 2024. 3. 13. 15:12

강의 내용 Review


📍배운내용📍

  • 다른 추천 아키텍처
  • 추천 시스템의 필요한 데이터셋 

👉강의내용👈

다른 추천 아키텍처

  • 추천 태스크는 어떤 태스크에 해당될까? 다중 클래스 분류, 이진 분류, Learning to Rank
  • 태스크를 이해하면 새로운 모델을 잘 이해할수있고, 다른 도메인에 사용된 기술및 정보를 적용해볼수있음
  • 이진 분류: 주로 랭킹 단계에서 사용됨, 함축 피드백 에측, CTR예측 등, 다중 클래스중에 한번의 추론으로 추천 순위를 만들수 있었지만, 아이템 개수만큼 인퍼런스가 필요함
  • Learning to Rank :  정보 조회 분야에서 유래, 추천 시스템에 특화됨, 컨텍스트를 포함해 더 많은 정보를 포함함 
  • 보통 학습시에 Loss function을 바꾸는데 많이 사용됨 
  • 트레이닝 데이터 구성이 훈련 인스턴스 하나이기 때문에 셔플 같은 것을 하지 못함
  • 포인트 와이즈는 이진분류, 두개를 인풋으로 받을때 페어 와이즈, 리스트 형태로 데이터를 넣는 것을 리스트 와이즈
  • 더 높은 랭킹을 맞춰야함, 로스는 아이템 쌍에 대한 예측값이 되어야함 
  • 추론시에에는 포인트 와이즈로 처리하는 경우가 많음, 다른 것들은 레이턴시 문제가 있음 
  • 세션과 밴딧 기반의 추천 도멘인 : 유저의 단기 흥미를 찾아내야함 
  • 추천 모델이 그 세션을 통해 다음에 어떤것을 볼지 예측 해야함 
  • 유저를 특정하지 못할경우, 첫방문일시, 그 세션의 정보만으로 추천을 제공함 
  • cold start가 핵심이슈로 아이템, 유저, 뉴스, 마케팅 같은거 
  • 스코어링 단계이후 밴딧을 적용하는 이유는 다양성과 탐험성을 증가 시키기 위한 용도 

데이터셋

  • 데이터셋을 구성하는 이유는 좋은 데이터가 들어가야 좋은 결과가 나옴
  • 모델링 하는 거 보다, 데이터 선정이 더 중요함 
  • 데이터 셋을 구성할때, 비지니스, 알고리즘, 시스템 상의 제한사항이 존재함 
  • 실제 유저에게 좋은 추천을 제공하기 위한 모든 피처가 포함될수있음,비지니스 도메인 이해와 사용중요,  UX에서 노출되는 피처가 선택하는데 중요한지 알수있음 
  • Explicit Feedback data:  유저가 직접 아이템에 대해 선호도 제공 (좋아요, 벌점 등), 조작될 가능성이 있음
  • Implicite Feedback data: 서비스를 사용하는 과정에서 발생한 상호작용, 데이터량이 많고 부정의 의미를 주기 어려움, 부정을 도메인에 따라 정해야함
  • Countinous(나이, 가격 등) vs categorical(class), 선택에 따라 분류가 되기도 함 
  • Query, Item, Context 피처 : 쿼리와 모델이 있을떄 컨텍스트를 넣음, 쿼리,아이템, 컨텍스트 아이템이 따로 있는데 서빙과정에서 추론 회수가 달라짐 
  • varient: 단일 클래스 소속, 다중 클래스 소속 등 
  • 다중 모달: 모달을 합친 임베딩을 추천 시스템에 넣음 

공부사진 


 

42일차 후기


 

추천시스템의 분류에 대해서 배웠다. 

 

 

 

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/48sS29N