패스트캠퍼스 환급챌린지 7일차 미션 (2월 7일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기

2024년 패스트 캠퍼스 챌린지

패스트캠퍼스 환급챌린지 7일차 미션 (2월 7일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기

조이쓰 2024. 2. 7. 23:47

강의 내용 Review

📍배운내용📍

일반화 성능
학습 평가 지표

👉강의내용👈

일반화 성능

일반화 성능 : 보지 않은 데이터에 대해 정확한 예측을 할수있는 능력
머신러닝 모델의 목표: 데이터에서 일반화 할수 있는 패턴을 학습해서 새로운 데이터에 대해서 정확한 예측을 하는 것
일반화 성능 우수 : 모델이 데이터의 패턴과 관계를 잘 학습해서 새로운 인스턴스에 적용하는것
새로운 인스턴스에 대해서 유의미한 예측을 만들어내는 것
모든 머신러닝 모델의 성공을 판가름 하는 중요한 척도
학습 데이터에서는 성능이 높지만 테스트 데이터에 대해서는 낮은것 -> 오버피팅
언더피팅 -> 학습이 충분히 하지 않아서 단순한 파라미터를 가진
오버피팅 -> 일반화 성능을 포기하면서 노이즈를 학습시킴, 성능이 낮음, 오랜 학습
분산 편향: 머신러닝과 기본 개념
분산 : 학습데이터에 등장하는 변화에 대해 민감하게 반응(오버피팅), 주어진 것만 다 외워버림
편향(바이어스) : 너무 단순 한 모델을 사용할 경우, 지나치게 단순하게 정의하면서 성능이 떨어짐(언더피팅)
편향과 분산과의 관계를 잘 맞추는 것이 중요함
정규화 : 파라미터에 패널티 제약을 줘서 모델의 자유도를 낮춤 라쏘회귀, 릿지회귀
L1: 중요하지 않은 변수가 0이 되어서 중요하지 않은 변수 걸러냄
L2: 중요하지 않은 변수가 0에 가까워짐
검증 : 있는 데이터로 검증
hold-out : 숨겨놓는 방법, 나눠놓음 추천시스템은 인터렉션 데이터기반으로 학습하는데 데이터 양이 너무 많아서 hod-out방식으로 주로 학습함
K-fold CV : 데이터의 일부를 K개로 쪼개서 학습함, 하나를 쓸때는 편향된 데이터를 사용할수도있는데 K개로 사용하면 더 평균적인 값을 구할수있음
LOOCV : 한개의 샘플만 남겨두고 다 학습하는 것을 반복, 연산량이 많음

평가지표

혼동행렬: 실제 모델의 정답과 분류모델의 결과를 비교해서 성능 측정
Type1에러 (False Positive) : 잘못 참으로 말한 경우
Type2에러 (False Negative) : 잘못 거짓으로 말한 경우
정확도 , 재현율, 정밀도, F1-score
F1-score: 불균형한 데이터를 사용할때 유용
AUC , RUC :추천 알고리즘에 성능 측정에 많이 사용됨
다양한 Threshold값에 따라 성능이 달라짐
AUC: ROC 커브의 하단부의 넓이 비율, 높을수록 좋음

공부사진

7일차 후기

오늘도 많이 듣지는 못했다ㅠㅠ

얼른 얼른듣자

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/48sS29N

저작자표시 (새창열림)