1. Underfitting & Overfitting

fit

  • 데이터를 설명할 수 있는 능력

  • Underfitting: 데이터를 설명하지 못함
  • Overfitting: 데이터를 과하게 설명함

스크린샷 2023-05-07 오후 10 20 40

  • under - 적절 - over


overfitting

스크린샷 2023-05-07 오후 10 21 25


  • 우리의 데이터셋은 전체의 일부분
  • 확보한 데이터셋을 이용해 전체 데이터셋으로 모델이 잘 돌아가게 하는 것이 목표

스크린샷 2023-05-07 오후 10 23 05


스크린샷 2023-05-08 오전 12 56 36

  • 빨간 선을 기준으로 현재 모델이 overfit인지 underfit인지 설명 가능


2. Regularization


Early stopping

  • validation error가 지속적으로 증가하는 지점에서 stop

스크린샷 2023-05-08 오전 12 59 26


Parameter norm penalty

  • Lasso, Ridge, ElasticNet penalty
  • 패널티 계수 선택

스크린샷 2023-05-08 오전 1 00 55


Data augmentation

  • 이미지 문제를 풀 때 많이 사용
  • 원본 이미지를 회전, 플립, 확대, 축소함으로써 데이터의 개수를 늘리는 방법

스크린샷 2023-05-08 오전 1 03 40


SMOTE

스크린샷 2023-05-08 오전 1 05 05

  • 불균형 데이터에 대해 augmentation
  • 기준으로 설정된 데이터와 근처에 있는 데이터 사이에 새로운 데이터를 생성하는 방식


Noise robustness


Label smoothing


Dropout

스크린샷 2023-05-08 오전 1 06 36

  • 원본 딥러닝 모델에서 무작위로 노드의 연결을 끊는 방식
  • 피처의 일부분만 사용하여 모델을 생성하는 방법
  • 정형 데이터 -> tree의 prouning


Batch normalization


3. Validation strategy

스크린샷 2023-05-08 오전 1 09 51


test set

  • 프로젝트로 나오는 결과물과 직결되는 중요한 데이터셋

스크린샷 2023-05-08 오전 1 10 16

  • 최대한 전체 데이터셋을 대표할 수 있도록


validation set

  • 모델을 test set에 적용하기 전에, 모델을 파악하기 위해 이용하는 데이터셋
  • test set과 최대한 유사하게 구성하는 것이 좋음

스크린샷 2023-05-08 오전 1 15 13


  • K-Fold
    스크린샷 2023-05-08 오전 1 17 38