https://www.boostcourse.org/ai111


Introduction

  • AI: Mimic human intelligence
  • ML: Data-driven approach
  • DL: Neural networks
  • Deep Learning ⊂ Machine Learning ⊂ AI


key components of Deep Learning

  • the data that the model can learn from
  • the model how to transform the data
  • the loss function that quantifies the badness of the model
  • the algorithm to adjust the parameters to minimize the loss


-> 새로운 논문을 읽을 때 이 네가지에 비춰 보면 이 논문/연구가 기존 연구에 비해 어떤 장점이 있고, 어떤 contribution이 있는지 이해하기 쉬움


Neural Networks

  • function approzimators that stack affine transformations followed by nonlinear transformations
  • 함수를 근사한 모델
  • 행렬 곱 / 비선형 연산(activation function)이 반복적으로 일어나는 모델


linear function

스크린샷 2023-05-26 오후 6 25 13

  • 입력 & 출력 1차원 -> 입력과 출력을 연결하는 모델을 찾는 것이 목표
  • line의 기울기와 절편 -> 2개의 parameters


스크린샷 2023-05-26 오후 6 26 19

  • 회귀문제 -> sqaured loss function 사용


스크린샷 2023-05-26 오후 6 28 19

  • 목표: loss function을 줄이는 것
    • parameter가 어느 방향으로 움직였을 때 줄어드는지 찾고, 그 방향으로 parameter 바꿈
    • back propagation


  • partial derivative
    • N개의 target값과 예측값 사이의 제곱을 minimize하는 loss function의 w에 대한 편미분
    • b에 대해서도 편미분
  • update 스크린샷 2023-05-26 오후 6 31 46

=> Gradient descent


Beyond Linear Neural Networks

  • linear layer를 계속 쌓으면 한 개의 layer와 다를 것이 없음
    -> nonlinear transform 필요

스크린샷 2023-05-26 오후 6 36 43

  • network의 표현력 극대화
    -> [선형결합 반복 + activation function 곱 (nonlinear transform)] n번 반복


activation functions

  • ReLU
    스크린샷 2023-05-26 오후 6 38 48

  • Sigmoid
    스크린샷 2023-05-26 오후 6 39 04

  • Hyperbolic Tangent
    스크린샷 2023-05-26 오후 6 39 21


  • 상황마다 적절한 activation function은 다름


Multi-Layer Perceptron

스크린샷 2023-05-26 오후 6 41 53

  • 입력 -> linear/nonliner transform -> hidden layer -> affine transform
    • 한 / 두 단 정도


loss function

  • Regression - MSE
    스크린샷 2023-05-26 오후 6 43 29


  • Classification - Cross Entropy
    스크린샷 2023-05-26 오후 6 45 08


  • Probablistic - MLE (=MSE)
    스크린샷 2023-05-26 오후 6 48 28