2024년 패스트 캠퍼스 챌린지
패스트캠퍼스 환급챌린지 7일차 미션 (2월 7일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기
조이쓰
2024. 2. 7. 23:47
강의 내용 Review
📍배운내용📍
- 일반화 성능
- 학습 평가 지표
👉강의내용👈
일반화 성능
- 일반화 성능 : 보지 않은 데이터에 대해 정확한 예측을 할수있는 능력
- 머신러닝 모델의 목표: 데이터에서 일반화 할수 있는 패턴을 학습해서 새로운 데이터에 대해서 정확한 예측을 하는 것
- 일반화 성능 우수 : 모델이 데이터의 패턴과 관계를 잘 학습해서 새로운 인스턴스에 적용하는것
- 새로운 인스턴스에 대해서 유의미한 예측을 만들어내는 것
- 모든 머신러닝 모델의 성공을 판가름 하는 중요한 척도
- 학습 데이터에서는 성능이 높지만 테스트 데이터에 대해서는 낮은것 -> 오버피팅
- 언더피팅 -> 학습이 충분히 하지 않아서 단순한 파라미터를 가진
- 오버피팅 -> 일반화 성능을 포기하면서 노이즈를 학습시킴, 성능이 낮음, 오랜 학습
- 분산 편향: 머신러닝과 기본 개념
- 분산 : 학습데이터에 등장하는 변화에 대해 민감하게 반응(오버피팅), 주어진 것만 다 외워버림
- 편향(바이어스) : 너무 단순 한 모델을 사용할 경우, 지나치게 단순하게 정의하면서 성능이 떨어짐(언더피팅)
- 편향과 분산과의 관계를 잘 맞추는 것이 중요함
- 정규화 : 파라미터에 패널티 제약을 줘서 모델의 자유도를 낮춤 라쏘회귀, 릿지회귀
- L1: 중요하지 않은 변수가 0이 되어서 중요하지 않은 변수 걸러냄
- L2: 중요하지 않은 변수가 0에 가까워짐
- 검증 : 있는 데이터로 검증
- hold-out : 숨겨놓는 방법, 나눠놓음 추천시스템은 인터렉션 데이터기반으로 학습하는데 데이터 양이 너무 많아서 hod-out방식으로 주로 학습함
- K-fold CV : 데이터의 일부를 K개로 쪼개서 학습함, 하나를 쓸때는 편향된 데이터를 사용할수도있는데 K개로 사용하면 더 평균적인 값을 구할수있음
- LOOCV : 한개의 샘플만 남겨두고 다 학습하는 것을 반복, 연산량이 많음
평가지표
- 혼동행렬: 실제 모델의 정답과 분류모델의 결과를 비교해서 성능 측정
- Type1에러 (False Positive) : 잘못 참으로 말한 경우
- Type2에러 (False Negative) : 잘못 거짓으로 말한 경우
- 정확도 , 재현율, 정밀도, F1-score
- F1-score: 불균형한 데이터를 사용할때 유용
- AUC , RUC :추천 알고리즘에 성능 측정에 많이 사용됨
- 다양한 Threshold값에 따라 성능이 달라짐
- AUC: ROC 커브의 하단부의 넓이 비율, 높을수록 좋음
공부사진
7일차 후기
오늘도 많이 듣지는 못했다ㅠㅠ
얼른 얼른듣자
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.