2024년 패스트 캠퍼스 챌린지

패스트캠퍼스 환급챌린지 7일차 미션 (2월 7일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기

조이쓰 2024. 2. 7. 23:47

강의 내용 Review


📍배운내용📍

  • 일반화 성능 
  • 학습 평가 지표

👉강의내용👈

일반화 성능

  • 일반화 성능 : 보지 않은 데이터에 대해 정확한 예측을 할수있는 능력
  • 머신러닝 모델의 목표:  데이터에서 일반화 할수 있는 패턴을 학습해서 새로운 데이터에 대해서 정확한 예측을 하는 것 
  • 일반화 성능 우수 : 모델이 데이터의 패턴과 관계를 잘 학습해서 새로운 인스턴스에 적용하는것 
  • 새로운 인스턴스에 대해서 유의미한 예측을 만들어내는 것 
  • 모든 머신러닝 모델의 성공을 판가름 하는 중요한 척도 
  • 학습 데이터에서는 성능이 높지만 테스트 데이터에 대해서는 낮은것 -> 오버피팅 
  • 언더피팅 -> 학습이 충분히 하지 않아서 단순한 파라미터를 가진
  • 오버피팅 -> 일반화 성능을 포기하면서 노이즈를 학습시킴, 성능이 낮음, 오랜 학습 
  • 분산 편향: 머신러닝과 기본 개념 
  • 분산 : 학습데이터에 등장하는 변화에 대해 민감하게 반응(오버피팅), 주어진 것만 다 외워버림 
  • 편향(바이어스) : 너무 단순 한 모델을 사용할 경우, 지나치게 단순하게 정의하면서 성능이 떨어짐(언더피팅)
  • 편향과 분산과의 관계를 잘 맞추는 것이 중요함 
  • 정규화 : 파라미터에 패널티 제약을 줘서 모델의 자유도를 낮춤 라쏘회귀, 릿지회귀 
  • L1: 중요하지 않은 변수가 0이 되어서 중요하지 않은 변수 걸러냄 
  • L2: 중요하지 않은 변수가 0에 가까워짐 
  • 검증 : 있는 데이터로 검증 
  • hold-out : 숨겨놓는 방법, 나눠놓음 추천시스템은 인터렉션 데이터기반으로 학습하는데 데이터 양이 너무 많아서 hod-out방식으로 주로 학습함 
  • K-fold CV : 데이터의 일부를 K개로 쪼개서 학습함, 하나를 쓸때는 편향된 데이터를 사용할수도있는데 K개로 사용하면 더 평균적인 값을 구할수있음 
  • LOOCV : 한개의 샘플만 남겨두고 다 학습하는 것을 반복, 연산량이 많음 

평가지표

  • 혼동행렬: 실제 모델의 정답과 분류모델의 결과를 비교해서 성능 측정 
  • Type1에러 (False Positive) : 잘못 참으로 말한 경우
  • Type2에러 (False Negative) : 잘못 거짓으로 말한 경우 
  • 정확도 , 재현율, 정밀도, F1-score
  •  F1-score: 불균형한 데이터를 사용할때 유용 
  • AUC , RUC :추천 알고리즘에 성능 측정에 많이 사용됨
  • 다양한 Threshold값에 따라 성능이 달라짐
  • AUC: ROC 커브의 하단부의 넓이 비율, 높을수록 좋음 

공부사진 


7일차 후기


오늘도 많이 듣지는 못했다ㅠㅠ

얼른 얼른듣자 

 

 

 

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/48sS29N