Day_75 01. 최적화 소개 및 강의 개요

작성일 November 22, 2021

4 분 소요

최적화 소개 및 강의 개요

ML is everywhere!

머신러닝과 딥러닝은 모든 분야에서 사용되고 있음

다양한 application 들이 계속해서 나오고 있는 상황

1) On device AI

Smart Phone, Watch, other IoT Devices, …
Limitation:
- Power usage(Battery)
- RAM Memory usage
- Storage
- Computing power

디바이스에 자체적으로 올라가서 딥러닝이나 머신러닝을 수행하는 경우

4가지 limitation 을 해소할 수 있는게 경량화방법임

2) AI on cloud(or server)

latency : 한 요청에 대해서 소요되는 시간

throughput : 단위 시간당 처리가능한 요청 수

3) Computation as a key component of AI progress

전체적으로 연산량이 증가하고 있다

경량화는?

모델의 연구와는 별개로, 산업에 적용되기 위해서 거쳐야하는 과정
요구조건(하드웨어 종류, latency 제한, 요구 throughput, 성능)들 간의 trade-off 를 고려하여 모델 경량화/최적화를 수행

경량화, 최적화의 (대표적인) 종류

네트워크 구조 관점
1. Efficient Architecture Design(+AutoML; Neural Architecture Search(NAS))
  - 비전에서의 module block 들 e.g. mobilenet, resnet, vgg, efficientnet 등
  - NAS : 경량모델을 사람이 디자인 하는게 아니라 최적화를 통해서 경량모델을 찾아보자
2. Network Pruning
  - 중요도가 낮은 파라미터를 제거해 사이즈를 줄여보자는 접근
3. Knowledge Distillation
  - 학습된 큰 규모의 teacher 네트워크가 있을 때 작은 student 네트워크에 teacher 네트워크가 가지고 있는 knowledge 를 Distillation(전달)하자 라는 내용으로 봐도 됨
4. Matrix/Tensor Decomposition
  - 학습된 네트워크에 대해서 convolution weight 들이 학습이 될건데 이 convoution weight 들을 더 작은 단위의 tensor 들의 곱과 합으로 표현 실제로 들고있어야하는 weight 의 양도 줄어들고 연산량도 줄어듦 …
Hardward 관점
1. Network Quantization
  - 일반적으로 학습된 네트워크가 float32 로 표현되는데 더 작은 타입인 float16, int, 더 작은 사이즈로 맵핑
2. Network Compiling
  - 하드웨어가 정해져있을때 inference 를 효과적으로 수행할 수 있도록 자체 Compile 하는 과정을 의미 …

매년 쏟아져 나오는 블록 모듈들
각 모듈 블록마다의 특성이 다름(성능, 파라미터 수, 연산횟수, …)

왼쪽에 있는 모듈들이 경량모델임

accuracy density 에 대해서 파라미터가 어느정도로 기여하고 있느냐인데 맨 오른쪽에 squeezenet 같은 경우가 엄청 좋은 효율을 가지는 것을 볼 수 있음

파라미터를 그룹 단위로 pruning 하는 기법들을 총칭(그룹: channel / filter, layer 등)
Dense computation 에 최적화된 소프트웨어 또는 하드웨어에 적합한 기법

왼쪽 그림은 filter 인데 빨간색은 살리고 흰색은 날린다고 보면 됨

파라미터 각각을 독립적으로 pruning 하는 기법
Pruning 을 수행할수록, 네트워크 내부의 행렬이 점차 희소(sparse)해짐
Structured Pruning 과 달리 sparse computation 에 최적화된 소프트웨어 또는 하드웨어에 적합한 기법

convolution filter 를 각각의 matrix 마다 하나하나 확인해서 pruning 을 진행

학습된 큰 네트워크를 작은 네트워크의 학습 보조로 사용하는 방법
Soft targets(soft outputs)에는 ground truth 보다 더 맣은 정보를 담고 있음
(e.g. 특정 상황에서 레이블 간의 유사도 등등)
Student network 와 ground truth label 의 cross-entropy
teacher network 와 student network 의 inference 결과에 대한 KLD loss 로 구성
- $T$ 는 large teacher network 의 출력을 smoothing(soften) 하는 역할을 한다.
- $\alpha$ 는 두 loss 의 균형을 조절하는 파라미터다.

일반적인 float32 데이터타입의 Network 의 연산과정을 그보다 작은 크기의 데이터타입(e.g. float16, int8, …)으로 변환하여 연산을 수행

결과가 달라지는 Quantization Error 가 발생함
그렇지만 Quantization Error 에도 Robust 하게 동장하는게 경험적으로 밝혀져 있음
그래서 보편적으로 많이 적용이 되고 있는 기법중에 하나임
사이즈: 감소
성능(Acc): 일반적으로 약간 하락
속도: Hardware 지원 여부 및 사용 라이브러리에 따라 다름(향상 추세)
Int8 quantization 예시(CPU inference, 속도는 pixel2 스마트폰에서 측정됨)

학습이 완료된 Network 를 deploy 하려는 target hardware 에서 inference 가 가능하도록 compile 하는 것(+ 최적화가 동반)
사실상 속도에 가장 큰 영향을 미치는 기법
e.g. TensorRT(NVIDIA), Tflite(Tensorflow), TVM(apache), …
각 compile library 마다 성능차이가 발생
Compile 과정에서, layer fusion(graph optimization) 등의 최적화가 수행됨
예를들어 tf 의 경우 200개의 rule 이 정의되어 있음
Framework 와 hardware backends 사이의 수많은 조합
HW 마다 지원되는 core, unit 수, instruction set, 가속 라이브러리 등이 다름
Layer fusion 의 조합에 따라 성능차이가 발생(동일 회사의 hw 임에도)
AutoML 로 graph 의 좋은 fusion 을 찾아내자
e.g. AutoTVM(Apache)