-
패스트캠퍼스 환급챌린지 47일차 미션 (3월 18일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기2024년 패스트 캠퍼스 챌린지 2024. 3. 18. 23:53
강의 내용 Review
📍배운내용📍
- Ranking 알고리즘
- GBDT
👉강의내용👈
Ranking 알고리즘
- 랭킹 알고리즘은 바이너리 분류 문제를 차용해서 품
- 이진 분류를 추천에서 사용할때 멀티모달, 멀티태스크, 크로스 피처를 고려해서 진화함
- 멀티모달: 여러가지 데이터 유형이 있음, 추천 시스템의 개념중 다양한 유형의 데이터를 의미함, 이미지, 텍스트, 오디오등 컨텐츠 데이터를 미리 다른 모델로 처리하고 랭킹모델의 피처로 사용가능
- 랭킹 모델 안에 멀티 모달 데이터를 처리 할수있는 모델을 넣어서 같이 한꺼번에 배울수 있음(앤드 투 앤드 ) 더 비슷한 임베딩은 생성 가능하나 단점도 존재
- 멀티 모달은 개별적으로 추출하고 랭킹 모델에 넣음, 멀티모달은 다양한 데이터 타입을 처리 할수있음
- 크로스 피처: 다른 특성과 상호작용을 사용
- 크로스피처의 발전은 네트워크 아키텍처 개선, AutoML, 계산 효율성에 대한 연구, 시간 특성 고려 등의 요소가 있음
- 멀티태스크 러닝: 공유 지식을 고려해서 관련 작업을 통합 함 성능과 효율을 높일수있음
- 멀티태스크의 종류: 시나리오가 여러개, 유저의 액션이 여러개, 멀티 태스크 구현에는 바텀레이어는 공유하는 구조, 각 시나리오에서 얻을수있는 데이터가 다르기 때문에 없는 데이터는 마스킹해서 인풋처리, 나눠져서 학습을 하고 퓨전을 통해서 다시 들어감, 여러가지 expert들이 학습을 하고 게이트는 무슨 비율로 더할지 정하는 구조 등이 있음
- NextVideo : expert가 두개가 있고 소프트맥스 게이트가 있음, 멀티 태스크를 휴율적으로 더 잘하기 위한 용도
- 인스타그램도 멀티 태스크를 사용해서 좋아요, 저장, 네거티브 액션을 사용해서 멀티태스크 러닝 함
- pinterest : 비슷한 상품을 추천하기 위한 멀티 태스크 러닝을 함
GBDT
- 여러개의 결정 트리를 사용해서 머신러닝 수행
- 의사결정나무: 트리 모양을 이용해서 결정 내림
- 실제 조건에 맞는 것을 따라가면 결과가 나옴
- 랜덤 포래스트와 그래디언트 부스팅 의사결정 나무(앙상블 사용)
- 앙상블 : 여러가지 모델을 합쳐서 결론 내림
- 랜덤 포래스트: 여러개의 DT를 만드는데 피처와 학습이 완전히 다르게 독립적으로 학습됨
- GBDT : 그래디언트 부스팅 방법을 사용함
- Boosting : 앙상블 기법중 하나로 어려개의 DT를 연속적으로 만듦, 연속적으로 배워서 오차를 줄이도록 다음 트리를 학습함
- 부스팅은 첫번 째 DT를 학습하고 둘 차이를 구하고 다음 모델은 잔차를 기반으로 학습함
- GBDT는 테블러 데이터에서 좋은 오히려 딥러닝 보다도 성능이 뛰어남, 아웃라이어에 강하고, 결측값을 처리 가능함, 잔차를 배우는 방식이라서 오버피팅이 될수도있음
- 하이퍼 파라미터 튜닝이 적은 편이고 카테고리컬 피처는 알아서 전처리 해줌, 구현되어있는 여러가지 구현체 존재함, 피처의 중요도를 통해 설명가능성이 있음
- 현업의 사용예제: 네이버 쇼핑 검색 랭킹에 사용함
공부사진
47일차 후기
추천 시스템과 GBDT에 대해서 배웠다.
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
'2024년 패스트 캠퍼스 챌린지' 카테고리의 다른 글