Day_6 01. 딥러닝 기본 용어 설명 - Historical Reviews

작성일 August 9, 2021

2 분 소요

딥러닝 기본 용어 설명 - Historical Review

Instroduction

Disclaimer
- 딥러닝이라고 불리는 분야는 한 사람이 짧은 시간동안 다루기에는 너무나 많은 다양한 주제가 있음
What make you ad good deep learner?
- 구현실력
- Math Skill(Linear Algebra, Probability)
- 현재(최근)에 어떤 논문들이 나오는지 이해하고 알고 있는지
인공지능의 정의
- 사람의 지능을 모방하는 것
- 딥러닝만 지능을 모방하는건 아님
Key Components of Deep Learning
- 데이터 : The data that the model can learn from
- 모델 : The model how to transform the data
- 손실함수 : The loss function that quantifies the badness of the model
- 알고리즘 : The algorithm to adjust the parameters to minimize the loss

Data

Data depend on the type of the problem to solve
- 데이터는 풀고자 하는 문제에 의존

Model

이미지가 주어지거나, 텍스트 문장, 단어가 주어졌을 때 이러한 단어를 내가 직접적으로 알고 싶어하는 class label이 되었든 아니면 문장에대한 sentimental analysis 가 되었든 이런 것들을 바꿔주는 모델
같은 태스크가 주어졌더라도 모델에 성질에 따라서 좋은 결과가 나올 수도 있고 안좋은 결과가 나올수도 있음

Loss

The loss function is a proxy of what we want to achieve
Loss function은 우리가 이루고자 하는것의 근사치
모델이 정해져있고 데이터가 정해져있을 때 모델을 어떻게 학습할지 입니다.
회귀문제를 푼다고 하면 MSE
분류문제를 푼다고 하면 Cross Entropy
확률적인 모델을 활용해서 출력값이 어떤 값이아니라 그 값의 대한 평균값과 분산 가우시안으로 모델링 한다고 했을 때 MLE(Maximum Likelihood Estimation) 관점으로 문제를 풀 수 있음
이 Loss function 을 왜 사용하고 이 Loss 가 줄어드는 것이 우리가 진짜 풀고자 하는 문제를 어떻게 푸는지를 이해하는것이 중요!!

Optimization Algorithm

최적화 방법은 데이터가 정해져있고, 모델이 정해져있고, Loss function이 정해져있을 때 네트워크를 어떻게 줄일지에 대한 내용
우리의 목적은 모델이 학습하지 않은 데이터에서 잘 동작하는게 목적이기 때문에 Dropout, Early stopping, k-fold validation, Weight decay, Batch normalization, MixUp, Ensemble, Bayesian Optimization 등에 대해서 배울 예정

Historical Review

2012 - AlexNet
- Convolution network
- ImageNet 대회에서 딥러닝을 이용해 1등
2013 - DQN
- Q-learning 이라는 강화학습 방법을 이용
- 오늘날의 딥마인드가 있게한 논문
2014 - Encoder / Decoder
- NMT(Neural Machine Translation) 문제를 풀기위한 것
- seq2seq 모델
2014 - Adam Optimizer
- Adam의 결과는 왠만하면 잘 된다
2015 - Generative Adversarial Network
- 이안 굿 펠로우가 쓴 논문
- 이미지를 어떻게 만들어 낼 수 있을지
- 텍스트를 어떻게 만들어 낼 수 있을지
2015 - Residual Networks
- 딥러닝이 왜 딥러닝이냐? 네트워크를 깊게 쌓았기 때문
- 레이어를 깊게 쌓으면 학습이 잘 안된다는 말이 있었음
- Training error 는 굉장히 작아지지만 test 데이터에 적용하면 성능이 안좋음
- Res-net이 나온 이후에는 트렌드가 바뀜
- 깊게 쌓아도 성능이 잘 나올 수 있음을 보여줌
2017 - Transformer
- Attention Is All You Need
- RNN 구조를 대체하고 있고 vision 까지 넘보고 있음
2018 - BERT(Bidirectional Encoder Representations from Transformers) (fine-tuned NLP models)
- NLP 모델은 language model 을 학습하는데 쉽게말하면 이전의 단어가 주어졌을 때 다음에 어떤 단어가 나올지를 맞추는 문제
- fine-tuned 모델은 굉장히 다양한 단어 혹은 위키피디아와 같은 큰 말뭉치를 활용해서 pre-train을 하고 그 다음에 내가 풀고자 하는 소수의 문제에 fine-tuning을 하는것
2019 - BIG Language Models
- GPT-3
- 굉장히 많은 parameter로 되어있음 (1750억개)
2020 - Self Supervised Learning
- SimCLR : a simple framework for contrastive learning of visual representations
- 대표적인 구글의 논문
- 학습데이터 외 라벨을 모르는 데이터를 사용하겠다는 아이디어
- 도메인 지식을 활용해서 학습데이터를 만들겠다는 아이디어도 많이 연구되고 있음

Twitter Facebook LinkedIn

늘 공부하는 딥린이

Day_6 01. 딥러닝 기본 용어 설명 - Historical Reviews

딥러닝 기본 용어 설명 - Historical Review

Instroduction

Data

Model

Loss

Optimization Algorithm

Historical Review

공유하기

댓글남기기

참고

M1 Macbook air 미리보기 스페이스바 pdf 내용 안보이는 오류 해결 방법

크롬에서 티스토리 블로그 400 Bad Request 오류 영구 해결방법

Dual Contrastive Learning Paper Review (3)

Dual Contrastive Learning Paper Review (2)