Task-Aware Representation of Sentences for Generic Text Classification

작성일 June 17, 2022

3 분 소요

Task-Aware Representation of Sentences for Generic Text Classification paper review

ACL - 2020

Task-Aware Representation of Sentences for Generic Text Classification

이미 정의된 K 개의 클래스를 분류하도록 학습한 Classifier 에 추가된 클래스를 가지고 전이학습을 시킬 때 이전의 학습해서 K 개의 클래스를 분류하기 위한 정보를 담고 있던 linear layer 를 버리고 새로운 linear layer 를 밑바닥부터 학습해야 하는 문제를 해결할 방법 제시한 논문

1. 저자가 뭘 해내고 싶어했는가?

Text classification 에 대한 SOTA(State-of-the-art) approache 들은 BERT-style transformer 구조 위에 linear layer 를 추가해서 이용함

이러한 approach 는 효과적이지만 few-shot 또는 zero-shot 전이 학습 시나리오에서 사용의 한계를 가지고 있음

예측을 위한 클래수의 개수가 사전에 정의되어야 함
새로운 클래스가 이미 학습된 classifier 에 추가되는 전이학습에서 linear layer 에 포함된 모든 정보들은 버려지고 새로운 linear layer 는 처음부터 학습됨
이 approach 는 클래스의 자연어 이름에 의해 제공되는 명시적 의미 정보를 활용하는 것과는 대조적으로 학습 데이터로부터 암시적으로 클래스의 의미만을 학습
예를들어, 뉴스 기사의 topic 을 예측하기 위해 학습된 classifier 는 그들 스스로 의미 정보를 가지는 “business” 또는 “sports” 같은 클래스를 가질 것임

이 논문에서는 이러한 한계를 다루는 text classification 의 새로운 형식을 제시함

이것은 임의의 분류 문제를 일반적인 이진 분류 문제로 바꿔줌

적은 학습 데이터에서도 우수한 성능 그리고 학습 데이터가 전혀 없는 새로운 클래스에서도 예측할 수 있도록 하는 방법 제시

2. 이 연구의 접근에서 중요한 요소는 무엇인가?

Main Idea

task 에 특화된 Decoder 를 일반적인 이진(“True”, “False”) Decoder 로 변경

transformer 의 Input 은 클래스를 판별할 text 뿐만 아니라 클래스의 label 로 구성됨

예를들어, texet 가 positive 또는 negative 감성을 가지는지 아닌지를 예측하기 위해 학습된 이진 감성 분류기에 들어가는 input 은 분류가 될 text 뿐만 아니라 가능한 label 두개로 구성됨

BERT 에서 사용하는 [SEP] 토큰으로 클래스 label 과 text 를 구분함

모델에 들어가는 input 의 구성은 이렇게 되어있음

[CLS]-token + class label + [SEP]-token + text

BERT 를 통과한 후 [CLS] 토큰의 representation 을 마지막 linear layer 에 입력으로 줘서 이진 분류함

Task-Aware Representations

논문에서 제안한 approach 는 분류 문제를 sentence 와 잠재적인 클래스 label 이 transformer 에 주어지는 “query” 로 재구성되어 이 클래스 label 이 유지되는지 여부를 예측함

같은 Decoder(linear layer) 가 임의의 task 들에도 사용될 수 있고 클래스 label 자체에 의해 제공되는 정보도 transformer 모델에 의해 설명됨

장점으로 학습 데이터가 없는 클래스에 대한 예측도 반환할 수 있음

Contribution

전통적인 전이 학습 approache 들의 결정적인 단점을 다루는 text 분류의 새로운 형식 TARS(Task-Aware Rpresentation of Sentences) 를 제시했고 TARS 가 얼마나 task 들에 대해 끊김없이 학습 될 수 있는지를 보임
TARS 의 zero-shot 그리고 few-shot 전이 학습 능력의 평가를 다른 task 들(sentiment analysis, topic detection, question type detection)과 다른 도메인(newswire, restaurant reviews, product reviews) 로부터 text classification dataset 들을 사용하여 baseline 과 비교하기 위해 수행하고 의미적 거리의 영향을 조사함
모든 코드를 공개했음

Result

같은 도메인에서의 source data 와 넓은 카테고리를 가지는 target data 에 대한 전이 학습 결과를 보여줌

Zero-shot classification in TARS far above random baseline

모든 경우에 TARS 에 의해 얻어진 zero shot(k=0) accuracy 는 random baseline 보다 상당히 높음

Stronger few-shot results than baselines, but advantage levels off

TARS 는 상대적으로 빠르게 target task 에 적응할 수 있고 모든 모델이 클래스당 매우 적은 수의 예제를 볼 때 훨씬 더 높은 accuracy 를 얻을 수 있음

하지만 $\text{BERT}_{\text{BASE}}$ 와 $\text{BERT}_{\text{BASE}}$(ft) 은 더 많은 훈련 데이터를 볼 수 있다면 성능이 더 좋음

TARS 는 매우 적은 양의 데이터를 가진 영역에서 유용함

Effectiveness of transfer learning depends on semantic distance

의미적으로 상당히 다른 데이터셋들 사이의 전이 학습을 평가함

DBPEDIA 에서 TREC-6 으로의 전이는 k <= 10 일 때, 두개의 task 사이의 의미적 거리가 있음에도 불구하고 상당한 성능을 보여줬지만 AMAZON-FULL 에서 AGNEWS 로의 전이(상당히 다른 언어와 도메인)에서 직접 target task 데이터로 학습된 $\text{BERT}_{\text{BASE}}$ 모델이 모든 전이 학습 approach 들 보다 성능이 뛰어남

여기에서도 TARS 가 여전히 $\text{BERT}_{\text{BASE}}$(ft) 를 능가한다는 점은 흥미로움

의미적으로 거리가 있는 task 들에 대해서도 전이학습에서 TARS 의 Robustness 함을 볼 수 있음

Twitter Facebook LinkedIn

늘 공부하는 딥린이

Task-Aware Representation of Sentences for Generic Text Classification

Task-Aware Representation of Sentences for Generic Text Classification paper review

1. 저자가 뭘 해내고 싶어했는가?

2. 이 연구의 접근에서 중요한 요소는 무엇인가?

Main Idea

Task-Aware Representations

Contribution

Result

Zero-shot classification in TARS far above random baseline

Stronger few-shot results than baselines, but advantage levels off

Effectiveness of transfer learning depends on semantic distance

공유하기

댓글남기기

참고

M1 Macbook air 미리보기 스페이스바 pdf 내용 안보이는 오류 해결 방법

크롬에서 티스토리 블로그 400 Bad Request 오류 영구 해결방법

Dual Contrastive Learning Paper Review (3)

Dual Contrastive Learning Paper Review (2)