Day_6 01. 딥러닝 기본 용어 설명 - Historical Reviews

작성일

2 분 소요

딥러닝 기본 용어 설명 - Historical Review

Instroduction

  • Disclaimer
    • 딥러닝이라고 불리는 분야는 한 사람이 짧은 시간동안 다루기에는 너무나 많은 다양한 주제가 있음
  • What make you ad good deep learner?
    • 구현실력
    • Math Skill(Linear Algebra, Probability)
    • 현재(최근)에 어떤 논문들이 나오는지 이해하고 알고 있는지
  • 인공지능의 정의
    • 사람의 지능을 모방하는 것
    • 딥러닝만 지능을 모방하는건 아님
  • Key Components of Deep Learning
    • 데이터 : The data that the model can learn from
    • 모델 : The model how to transform the data
    • 손실함수 : The loss function that quantifies the badness of the model
    • 알고리즘 : The algorithm to adjust the parameters to minimize the loss

Data

  • Data depend on the type of the problem to solve
    • 데이터는 풀고자 하는 문제에 의존

Model

  • 이미지가 주어지거나, 텍스트 문장, 단어가 주어졌을 때 이러한 단어를 내가 직접적으로 알고 싶어하는 class label이 되었든 아니면 문장에대한 sentimental analysis 가 되었든 이런 것들을 바꿔주는 모델

  • 같은 태스크가 주어졌더라도 모델에 성질에 따라서 좋은 결과가 나올 수도 있고 안좋은 결과가 나올수도 있음

Loss

  • The loss function is a proxy of what we want to achieve
  • Loss function은 우리가 이루고자 하는것의 근사치

  • 모델이 정해져있고 데이터가 정해져있을 때 모델을 어떻게 학습할지 입니다.
  • 회귀문제를 푼다고 하면 MSE

  • 분류문제를 푼다고 하면 Cross Entropy

  • 확률적인 모델을 활용해서 출력값이 어떤 값이아니라 그 값의 대한 평균값과 분산 가우시안으로 모델링 한다고 했을 때 MLE(Maximum Likelihood Estimation) 관점으로 문제를 풀 수 있음

  • 이 Loss function 을 왜 사용하고 이 Loss 가 줄어드는 것이 우리가 진짜 풀고자 하는 문제를 어떻게 푸는지를 이해하는것이 중요!!

Optimization Algorithm

  • 최적화 방법은 데이터가 정해져있고, 모델이 정해져있고, Loss function이 정해져있을 때 네트워크를 어떻게 줄일지에 대한 내용
  • 우리의 목적은 모델이 학습하지 않은 데이터에서 잘 동작하는게 목적이기 때문에 Dropout, Early stopping, k-fold validation, Weight decay, Batch normalization, MixUp, Ensemble, Bayesian Optimization 등에 대해서 배울 예정

Historical Review

  • 2012 - AlexNet
    • Convolution network
    • ImageNet 대회에서 딥러닝을 이용해 1등
  • 2013 - DQN
    • Q-learning 이라는 강화학습 방법을 이용
    • 오늘날의 딥마인드가 있게한 논문
  • 2014 - Encoder / Decoder
    • NMT(Neural Machine Translation) 문제를 풀기위한 것
    • seq2seq 모델
  • 2014 - Adam Optimizer
    • Adam의 결과는 왠만하면 잘 된다
  • 2015 - Generative Adversarial Network
    • 이안 굿 펠로우가 쓴 논문
    • 이미지를 어떻게 만들어 낼 수 있을지
    • 텍스트를 어떻게 만들어 낼 수 있을지
  • 2015 - Residual Networks
    • 딥러닝이 왜 딥러닝이냐? 네트워크를 깊게 쌓았기 때문
    • 레이어를 깊게 쌓으면 학습이 잘 안된다는 말이 있었음
    • Training error 는 굉장히 작아지지만 test 데이터에 적용하면 성능이 안좋음
    • Res-net이 나온 이후에는 트렌드가 바뀜
    • 깊게 쌓아도 성능이 잘 나올 수 있음을 보여줌
  • 2017 - Transformer
    • Attention Is All You Need
    • RNN 구조를 대체하고 있고 vision 까지 넘보고 있음
  • 2018 - BERT(Bidirectional Encoder Representations from Transformers) (fine-tuned NLP models)
    • NLP 모델은 language model 을 학습하는데 쉽게말하면 이전의 단어가 주어졌을 때 다음에 어떤 단어가 나올지를 맞추는 문제
    • fine-tuned 모델은 굉장히 다양한 단어 혹은 위키피디아와 같은 큰 말뭉치를 활용해서 pre-train을 하고 그 다음에 내가 풀고자 하는 소수의 문제에 fine-tuning을 하는것
  • 2019 - BIG Language Models
    • GPT-3
    • 굉장히 많은 parameter로 되어있음 (1750억개)
  • 2020 - Self Supervised Learning
    • SimCLR : a simple framework for contrastive learning of visual representations
    • 대표적인 구글의 논문
    • 학습데이터 외 라벨을 모르는 데이터를 사용하겠다는 아이디어
    • 도메인 지식을 활용해서 학습데이터를 만들겠다는 아이디어도 많이 연구되고 있음

댓글남기기