Day_66 04. 관계 추출 데이터 구축 실습

작성일

1 분 소요

관계 추출 데이터 구축 실습

과제 정의

과제 정의 시 고려할 요소

  1. 과제의 목적
  2. 데이터 구축 규모
  3. 원시 데이터
  4. 데이터이 주석 체계
  5. 데이터 주석 도구
  6. 데이터의 형식
  7. 데이터 검수
  8. 데이터 평가

데이터 구축 규모

기존 데이터의 규모

원시 데이터

기존 데이터의 출처

TACRED

TAC KBP challenge 2009 ~ 2014

Train 2009 ~ 2012, Dev 2013, Test 2014

KLUE

WIKIPEDIA, WIKITREE, 정책브리핑

둘 이상의 개체와 개체 간의 관계를 추출할 만한 문장이 포함된 텍스트 선정

구어 text 에서 관계 추출을 하기 쉽지 않음

데이터의 주석 체계

데이터 주석 도구

주석 단계 세분화 후, 주석 도구 결정

트리플(Triplet) 형태의 주석이 가능한 도구 선정 필요

데이터 주석 도구 - TACRED

데이터 주석 도구 - KLUE

공개되어 있는 주석도구를 사용할수도 있고 과제에 맞는 주석도구를 개발해서 사용할수도 있음

데이터의 형식 - TACRED, CoNLL

데이터의 형식 - TACRED, JSON

데이터의 형식 - KLUE

데이터 검수

  • 데이터 형식의 정확도
  • 관계 레이블의 정확도
  • 관계 추출 정확도

검수 규모 정하기 : 전수 또는 특정 비율

데이터 평가

작업자간 일치도(IAA, Inter-Annotator Agreement):

Fleiss’k (TACRED)

Krippendorff’s a(KLUE)

모델 성능 평가:

정밀도(Precision), 재현율(Recall), F1 (TACRED)

Micro F1, AUPRC(area under the precisionrecall curve) (KLUE)

Micro F1 을 쓴 이유는 label 들의 분포가 서로 불균형하기 때문 사용했음

데이터 구축 프로세스

가이드라인 작성

핵심 내용 : 주석 작업을 위한 가이드라인

  1. 작업 목적
  2. 작업 도구 사용법
  3. 작업 대상 문장과 아닌 문장 구분 기준
  4. 레이블별 주석 기준

가이드라인이 복잡하면 가이드라인을 꼼꼼하게 읽고 작업하지 않는 경우도 있으니 꼭 작업자가 숙지해야할 내용만 포함하는 것이 중요

Further Reading

댓글남기기