2024년 패스트 캠퍼스 챌린지

패스트캠퍼스 환급챌린지 52일차 미션 (3월 23일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기

조이쓰 2024. 3. 23. 23:48

강의 내용 Review


📍배운내용📍

  • CatBoost
  • DeepCTR

👉강의내용👈

CatBoost

  • 테서플로우 라이브러리로 딥러닝 추천 모델을 빠르게 구현 하는 방법
  • 데이터에 따라 다르지만 catBoost는 카테고리컬 피처에 특화 되어있음 
  • 카테고리컬 피처를 처리하는 것에 대한 많은 방법이 있음,(임베딩, 해싱, 표현학습) 
  • 다른 그래디언트 부스트 트리에 비해 성능이 우수함
  • 예측도 좋고, 카테고리컬 피처와 숫자 피처도 좋음 
  • spark는 큰 데이터를 다루는 프레임 워크인데 같이 사용가능 
  • 카테고리 피처보다 뉴머리컬 피처가 많으면 다른 알고리즘이 더 좋은 성능을 보임
  • 피처에 대한 전처리가 불필요함, 카테고리 변수에 대해 자동 처리 해줌
  • DT를 사용하기 때문에 피처 중요도를 설명할수있으며 설명성이 높음 
  • 빠르고 우수한 성능을 보임 
  • Classification, Regressor, Ranker가 있음 
  • 캣부스트 랭커는 캣브스트와 러닝 투 랭크를 같이 사용함 
  • Pool은 데이터 셋을 랩퍼, 다양한 타입의 피처 정의 가능 
  • 딥러닝 모델에 비하면 사용법이 간단하고, 하이퍼 파라미터 튜닝도 간단하고, 스파크랑 결합해서 빅데이터를 처리가능 
  • 멀티모달이라도 ssl를 통해 테스트와 이미지의 임베딩을 만들었다면 처리가능
  • 간단하지만 좋은 성능을 보임 

 DeepCTR

  • 개인이 운영하는 패키지로 딥러닝 모델의 CTR모델임 
  • 텐스플로우 2를 지원해서 API를 그대로 사용가능 
  • 장점: 많은 모델들이 구현되어있음, 추천 태스크에 맞게 다양한 피처를 처리 가능 
  • 기존의 파이프 라인이 있는 것이 아니라서 필요한 부분만 사용 가능 
  • 피처 칼럼을 나눠놨음, 덴스, 스파스로 나누어짐 
  • spart 피처는 vocab사이즈를 알고있어야함, 만약 모르거나 너무 큰경우 해싱을 함, 해싱을 너무 작게하면 충돌이 일어날수있어 학습이 잘 안될수도 있음
  • Trainable: 임베딩 만드는 작업이 중요한데 미리 표현학습을 따로 해서 임베딩을 미리 생성함, 랭킹태스트에서 처음부터 사용하는 방법있음,
  • 임베딩 생성법에넌 해싱과, stringLookUp이 있음
  • 임베딩 룩업 테이블은 굉장히 큰 메모리가 필요함 
  • 덴스피처, 전처리는 학습할때와 추론 할때 같은 전처리를 해야해서 모델에 포함되면 좋음 
  • 딥러닝에서 피처를 어떻게 처리 해야하는지 잘 설명하고 다양한 모델이 구현되어있는 장점이 있음 

 

공부사진 


 

 

52일차 후기


모델들이 정말 많네..!

 

 

 

 

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/48sS29N