Day_66 04. 관계 추출 데이터 구축 실습
작성일
관계 추출 데이터 구축 실습
과제 정의
과제 정의 시 고려할 요소
- 과제의 목적
- 데이터 구축 규모
- 원시 데이터
- 데이터이 주석 체계
- 데이터 주석 도구
- 데이터의 형식
- 데이터 검수
- 데이터 평가
데이터 구축 규모
기존 데이터의 규모
원시 데이터
기존 데이터의 출처
TACRED
TAC KBP challenge 2009 ~ 2014
Train 2009 ~ 2012, Dev 2013, Test 2014
KLUE
WIKIPEDIA, WIKITREE, 정책브리핑
둘 이상의 개체와 개체 간의 관계를 추출할 만한 문장이 포함된 텍스트 선정
구어 text 에서 관계 추출을 하기 쉽지 않음
데이터의 주석 체계
데이터 주석 도구
주석 단계 세분화 후, 주석 도구 결정
트리플(Triplet) 형태의 주석이 가능한 도구 선정 필요
데이터 주석 도구 - TACRED
데이터 주석 도구 - KLUE
공개되어 있는 주석도구를 사용할수도 있고 과제에 맞는 주석도구를 개발해서 사용할수도 있음
데이터의 형식 - TACRED, CoNLL
데이터의 형식 - TACRED, JSON
데이터의 형식 - KLUE
데이터 검수
- 데이터 형식의 정확도
- 관계 레이블의 정확도
- 관계 추출 정확도
검수 규모 정하기 : 전수 또는 특정 비율
데이터 평가
작업자간 일치도(IAA, Inter-Annotator Agreement):
Fleiss’k (TACRED)
Krippendorff’s a(KLUE)
모델 성능 평가:
정밀도(Precision), 재현율(Recall), F1 (TACRED)
Micro F1, AUPRC(area under the precisionrecall curve) (KLUE)
Micro F1 을 쓴 이유는 label 들의 분포가 서로 불균형하기 때문 사용했음
데이터 구축 프로세스
가이드라인 작성
핵심 내용 : 주석 작업을 위한 가이드라인
- 작업 목적
- 작업 도구 사용법
- 작업 대상 문장과 아닌 문장 구분 기준
- 레이블별 주석 기준
가이드라인이 복잡하면 가이드라인을 꼼꼼하게 읽고 작업하지 않는 경우도 있으니 꼭 작업자가 숙지해야할 내용만 포함하는 것이 중요
댓글남기기