-
패스트캠퍼스 환급챌린지 49일차 미션 (3월 20일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기2024년 패스트 캠퍼스 챌린지 2024. 3. 20. 23:57
강의 내용 Review
📍배운내용📍
- 휴리스틱 알고리즘
- 추천 시스템 사례
👉강의내용👈
휴리스틱 알고리즘
- 유틸리티 스코어: 강력한 베이스라인 확장성도 높아서 실제로 고도화된 추천 시스템을 만들기 전에 먼저 구축함
- 유틸리티 스코어 기반 추천 시스템: 휴리스틱한, 인간이 만든 함수로 랭킹을 매김
- 아이티 관련 기사가 랭킹을 매겨서 나옴, 실제로 랭크를 구하는 공식이 존재함
- 뉴스가 만들어진 시간, 좋아요 반응, 싫어요 반응과 패널티를 조합해서 랭킹을 매김
- 유틸리티 스코어 추천 시스템은 사람이 수식을 만들고 이를 계산한 결과로 조회나 랭킹, 둘다 합친것을 사용함
- 구글에서 만든 ML의 룰
- #1 머신러닝 없이 제품을 런칭 하는 것을 두려워 하지 말라고 함, 굳이 머신러닝이 아니여도 됨, 적절한 데이터가 없으면 휴리스틱 보다 성능이 낮을 수있음,
- #3 휴리스틱이 복잡해지면 ML로 넘어가면 됨, 보통 피처를 계속 뽑아서 피처가 늘어나게 되면 복잡해지게 됨
- 장점: 구현이 쉽고 간단함, 데이터가 적어도 오버피팅이 발생할 문제를 방지할수있음, 데이터 수집에 드는 비용을 절감할수있음
- 도메인 전문가가 있고 마땅한 베이스라인이 없으면 유틸리시 스코어기반의 모델이 강한 베이스라인 될수있음 -> 이후 그래디언트 부스팅 같은 모델 많이 사용함, 이후 멀티 모달, 멀티 태스크를 적용함
유틸리티 기반의 추천 시스템 사례
- 유튜브에서 후보자 생성을 위해 seed를 넣고 비슷한 비디오를 찾음, 이후 이것을 또 seed로 두고 N번 반복함
- 관련있는 비디오는 코 워치 카운트를 계산함
- 연관도를 구하기 위해 정해진 시간동안 비디오가 함께 시청된 횟수를 비디오를 본 횟수를 곱한것으로 나눔
- 이 구조가 TF-IDF랑 비슷함 : 문서내에 단어의 중요도를 판단하는 방법, 검색 엔진에 기본이 되는 알고리즘
- 단어가 전체 다큐먼트에서 얼마나 흔한지? 등을 계산함
- BM25는 모든 검색 엔진에 디폴트가 됨, 얼마나 단어가 전체 문서에 노출이 됐는지 계산함
- 스위기 : 인도 음식 배달 기업
- 홈피드랭킹에서 유틸리티 스코어에서 GBD로 넘어감
- 지속적인 지역을 확장해서 데이터가 없는 경우가 많이 있었음, 그리고 높은 로컬 비지니스와 레이턴시 제약 조건이 있음
- 유틸리티 펑션: 커스터머 선호 점수, 레스토랑 유사도 스코어, 레스토랑 유명한 스코어
- 파이널스코어는 곱해서 계산
- 직관적이고 설명가능성이 높음 , 확장가능성이 높음, 중요한 피처를 찾으면 추가하면 됨
- 단점은 피처마다 웨이트가 명확하지 않음, GBDT 포인트 와이즈 로스로 학습함
- 가계 유사도 구하는 방법은 LDA로 비지도학습이고 토픽 모델링 알고리즘임
- 단어를 통해 토픽을 분류해서 토픽에 속하는 가능성을 구함, 모여있는 것을 보고 토픽을 예상할수있음
- ML의 결과값을 유틸리티 스코어에 사용가능함
- 유틸리티 피처를 ML피처로 사용하면 바로 구현 가능
공부사진
49일차 후기
얼른 듣자
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
'2024년 패스트 캠퍼스 챌린지' 카테고리의 다른 글