-
패스트캠퍼스 환급챌린지 5일차 미션 (2월 5일) : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기2024년 패스트 캠퍼스 챌린지 2024. 2. 5. 20:41
강의 내용 Review
📍배운내용📍
- 머신러닝 개념
- 선형회귀 모델
- 의사결정 나무
👉강의내용👈
모델이란?
- 가설을의미
- 데이터사이의 관계를 학습할수 있도록 만들어진 알고리즘
- 입력데이터에 따른 출력데이터를 부고 가설을 세우고 모델을 만듦
학습이란?
- 패턴인식
- 입력데이터와 정답을 보고 규칙을 찾아냄
손실함수란?
- 학습메커니즘
- 패널티는 어떻게 주고 규칙을 수정할수있을까?
- 파라미터 업데이트를 통해 결과값을 바꿀수있는 방법
- 실제값과 예측값의 차이가 적을수록 모델이 잘 학습된것이라 판단할수있음
- 예측값과 실제값의 차이를 비교하는 것을 손실을 계산
- 최적화의 직관 - Grdient Descent : 손실함수, 머신러닝함수가 학습하는 방법 : 최저점으로 조금씩 내려감
- 파라미터 최적화를 통해 더 좋은 모델이 되도록 만듦
- 안본 인풋에 대해 좋은 예측 성능을 얼마나 잘보이는지?(일반화 성능)
- 문제정의 회귀 or 분류
- 모든 문제에 장점을 보이는 모델은 없음
선형 회귀 모델
- 입출력 데이터가 있고 이 두관계가 선형인 느낌일때
- EDA를 통해 데이터를 살펴볼수 있음
- 입력과 출력 데이터의 관계가 선형관계를 모델링하는 알고리즘
- 주어진 인풋과 아웃풋 데이터의 관계를 가장 잘 설명하는 직선을 찾음
- 함수와 모형: 함수를 정의하는것
- 1) 결정적 모형 : 무결하고 완전한 관계 ex) 온도 측정
- 2) 통계적 모형: 입력과 출력의 경향성 나타냄, 오차항을 포함함 ex) 키 측정 -> 데이터기반으로 추정을 함 오차가 있을수 밖에 없음
- 통계적 모델의 3가지 단계 : 참모델 -> 산점도 -> 제안모델 -> 적합 모델
- 회귀 모형의 일반식
- x : 독립변수, 공변량/ 설명 변수
- y: 종속변수, 반응변수
- e(입실론) : 오차항
- f() : 회귀함수
- OLS최적화 : 전체 x와 전체 y에대새 가장 잘 설명하는 b를 찾으면됨
- Closed Form과 Gradient descent방법이 있음
의사결정 나무
- 규칙을 학습하고 생성하는 알고리즘
- 분류와 회귀 모두에서 사용됨
- 모델의 학습: 전체 데이터셋에서 시작하여 규칙 거침에 따라 각각의 구획으로 정리, 새로운 데이터가 들어왔을때 규칙에 따라 나누고 그 안의 최빈/평균적인 값을 예측 결과로 반환
- 가장 좋은 규칙은 가장 잘 구분해 내는 규칙임
- 지니 불순도로 로스 함수 정의
- 분순도를 inpurity를 계산함으로 찾음
- 기준이 좋은 정도를 지니 불순도로 계산
- 분기변수와 지점을 찾고 지니 불순도가 최고로 낮은 곳을 찾음
- 계속 해서 나누다보면? 한개 밖에 안남음 : Pruning 가지치기
- 트리의 과한 성장을 막음으로 과적합 방지하고 일반화 성능 높임
공부사진
5일차 후기
선형회귀와 의사결정 나무내용은 아는 내용이라 빠르게 넘어갔다.
얼른 얼른 듣자!
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
'2024년 패스트 캠퍼스 챌린지' 카테고리의 다른 글