[BoostCourse] 3. 머신러닝 기본 개념
1. Underfitting & Overfitting
fit
-
데이터를 잘 설명할 수 있는 능력
- Underfitting: 데이터를 설명하지 못함
- Overfitting: 데이터를 과하게 설명함
- under - 적절 - over
overfitting
- 우리의 데이터셋은 전체의 일부분
- 확보한 데이터셋을 이용해 전체 데이터셋으로 모델이 잘 돌아가게 하는 것이 목표
- 빨간 선을 기준으로 현재 모델이 overfit인지 underfit인지 설명 가능
2. Regularization
Early stopping
- validation error가 지속적으로 증가하는 지점에서 stop
Parameter norm penalty
- Lasso, Ridge, ElasticNet penalty
- 패널티 계수 선택
Data augmentation
- 이미지 문제를 풀 때 많이 사용
- 원본 이미지를 회전, 플립, 확대, 축소함으로써 데이터의 개수를 늘리는 방법
SMOTE
- 불균형 데이터에 대해 augmentation
- 기준으로 설정된 데이터와 근처에 있는 데이터 사이에 새로운 데이터를 생성하는 방식
Noise robustness
Label smoothing
Dropout
- 원본 딥러닝 모델에서 무작위로 노드의 연결을 끊는 방식
- 피처의 일부분만 사용하여 모델을 생성하는 방법
- 정형 데이터 -> tree의 prouning
Batch normalization
3. Validation strategy
test set
- 프로젝트로 나오는 결과물과 직결되는 중요한 데이터셋
- 최대한 전체 데이터셋을 대표할 수 있도록
validation set
- 모델을 test set에 적용하기 전에, 모델을 파악하기 위해 이용하는 데이터셋
- test set과 최대한 유사하게 구성하는 것이 좋음
- K-Fold