-
패스트캠퍼스 환급챌린지 8일차 미션 (2월 8일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기2024년 패스트 캠퍼스 챌린지 2024. 2. 8. 23:53
강의 내용 Review
📍배운내용📍
- 모델기반 추천 알고리즘
- 배깅
- 부스팅
👉강의내용👈
트리기반 모델
- Desision Tree : 주어진 피처에 대해 출력값을 만들어내는 일련의 규칙을 생성하고 학습하는 알고리즘
- 과적합될 확률이 높음, 단순함
- 어떻게 하면 일반화 성능을 높일수있을까?
- 앙상블: 여러개의 모델을 구축해서 에러를 줄임, 다양한 모델에서 예측을 만들고 종합해서 다수결로 투표함
- 고려할절 1) 어떻게하면 다양성을 보장할지? 2) 개별 모델이 만들어진 판단을 어떻게 취합할것인가?
- 앙상블러닝: 어떤 모델이 최고인가? 알고싶을때
- 킬러 모델은 없다: 특정 알고리즘이 잘동작하는 이유는 데이터가 갖는 특정한 패턴을 인식하는 유리한 가설을 잘 작성했기 때문에
- 여러 모델을 조합해서 사용하면 개별 모델이 갖는 불확실성의 요소를 상쇄시킬수있음
- 앙상블 종류
- 배깅: Bootstrap Aggregating: 원래 전체 학습데이터를 복원을 한 샘플링을 통해 부트스트랩을 만들어냄, 여러개를 샘플링해서 모델을 만듬, 강선성의 특성을 높임
- 부스팅: 순차적으로 학습, 이전에 못맞췄던 모델을 다음 모델에는 더 집중해서 맞추도록, 이전모델의 약점을 보완하면서
- 스태킹 : 여러가지 모델이 있을때 최종출력을 만들어내는 새로운 알고리즘을 만들어서 학습시키는 알고리즘 생성
배깅
- 섞어서 학습하고 뽑아서 학습하고
- Bootstrap: 원본데이터에서 복원 추출을 해서 여러번 반복되서 포함될수 있도록, 이미 뽑힌것에 대해서도 똑같이 확률을 주기 때문에 무작위성 확보-> 데이터의 다양성 확보
- aggregation: 각 데이터 셋에서 샘플링 된 결과를 결합
- 다양성을 확보하는 방법 : 1) Bagging 2) 피처 랜덤 선택
- 분산을 줄이는 것이 목표
- 전체 데이터셋을 사용할때 피처 100개중에 일부의 데이터 피처를 사용해서 모델에 적합시킴, 학습데이터도 다르지만 피처도 다르게 학습됨
- 디시전 트리는 모두 같은 피처를 사용함
- 데이터와 피처를 일부만 살펴봄으로 다양성 확보하고 강건함 확보
- 트리가 가장 유연함으로 트리기반으로 앙상블이 발전 해왔음
부스팅
- 뒷일은 너에게 맡기마
- 다수의 모델로 좋은 결과를 보이겠다.
- 순차적으로 함, 못 맞춘것에 가중치를 줌
- 위크러너: 단순한 트리의 구조
- 작은 모델을 여러게 쌓아서 모델을 생성함
- 이후에 더 좋은 예측을 할수있도록 순차적인 예측
- 편항을 줄이는데 초점을 둠
- 부스팅 알고리즘
- LightGBM: 경량화 된 방법으로 학습함, 효율적임
- 피처를 미리 잘라 놓고, 도움이 되는 부분에 집중
- 1) 레벨 와이즈 트리 : 스프릿을 할때마다 분기가 모두 학습이 될때까지 수행을 한다음 한 레벨단위로 진행함, 학습이 비효울적
- 2) 리프 와이즈 : 손실함수가 더 많이 개선된쪽을 따라 깊이를 더해가는 방향으로 즉 그래디언트가 많이 줄어드는 방향으로만 규칙을 세분화 해감
- 3) 피처 히토그램화 : 피처마다 구간을 잘라서 히스토그램을 만들고 최저점을 계산함
- 4) GOSS : 기울기가 작은 값에 대해서는 가중치를 낮게 봄
공부사진
8일차 후기
진도가 잘 안나가는 군..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
'2024년 패스트 캠퍼스 챌린지' 카테고리의 다른 글