2024년 패스트 캠퍼스 챌린지
패스트캠퍼스 환급챌린지 52일차 미션 (3월 23일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기
조이쓰
2024. 3. 23. 23:48
강의 내용 Review
📍배운내용📍
- CatBoost
- DeepCTR
👉강의내용👈
CatBoost
- 테서플로우 라이브러리로 딥러닝 추천 모델을 빠르게 구현 하는 방법
- 데이터에 따라 다르지만 catBoost는 카테고리컬 피처에 특화 되어있음
- 카테고리컬 피처를 처리하는 것에 대한 많은 방법이 있음,(임베딩, 해싱, 표현학습)
- 다른 그래디언트 부스트 트리에 비해 성능이 우수함
- 예측도 좋고, 카테고리컬 피처와 숫자 피처도 좋음
- spark는 큰 데이터를 다루는 프레임 워크인데 같이 사용가능
- 카테고리 피처보다 뉴머리컬 피처가 많으면 다른 알고리즘이 더 좋은 성능을 보임
- 피처에 대한 전처리가 불필요함, 카테고리 변수에 대해 자동 처리 해줌
- DT를 사용하기 때문에 피처 중요도를 설명할수있으며 설명성이 높음
- 빠르고 우수한 성능을 보임
- Classification, Regressor, Ranker가 있음
- 캣부스트 랭커는 캣브스트와 러닝 투 랭크를 같이 사용함
- Pool은 데이터 셋을 랩퍼, 다양한 타입의 피처 정의 가능
- 딥러닝 모델에 비하면 사용법이 간단하고, 하이퍼 파라미터 튜닝도 간단하고, 스파크랑 결합해서 빅데이터를 처리가능
- 멀티모달이라도 ssl를 통해 테스트와 이미지의 임베딩을 만들었다면 처리가능
- 간단하지만 좋은 성능을 보임
DeepCTR
- 개인이 운영하는 패키지로 딥러닝 모델의 CTR모델임
- 텐스플로우 2를 지원해서 API를 그대로 사용가능
- 장점: 많은 모델들이 구현되어있음, 추천 태스크에 맞게 다양한 피처를 처리 가능
- 기존의 파이프 라인이 있는 것이 아니라서 필요한 부분만 사용 가능
- 피처 칼럼을 나눠놨음, 덴스, 스파스로 나누어짐
- spart 피처는 vocab사이즈를 알고있어야함, 만약 모르거나 너무 큰경우 해싱을 함, 해싱을 너무 작게하면 충돌이 일어날수있어 학습이 잘 안될수도 있음
- Trainable: 임베딩 만드는 작업이 중요한데 미리 표현학습을 따로 해서 임베딩을 미리 생성함, 랭킹태스트에서 처음부터 사용하는 방법있음,
- 임베딩 생성법에넌 해싱과, stringLookUp이 있음
- 임베딩 룩업 테이블은 굉장히 큰 메모리가 필요함
- 덴스피처, 전처리는 학습할때와 추론 할때 같은 전처리를 해야해서 모델에 포함되면 좋음
- 딥러닝에서 피처를 어떻게 처리 해야하는지 잘 설명하고 다양한 모델이 구현되어있는 장점이 있음
공부사진


52일차 후기
모델들이 정말 많네..!
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.