Day_65 06. 데이터 구축 작업 설계
작성일
데이터 구축 작업 설계
데이터 구축 프로세스
Model -> Annotate -> Train -> Test -> Evaluate -> Revise
MATTER cycle
Model and Guidelines -> Annotate -> Evaluate -> Revise
MAMA cycle
데이터 구축 프로세스 - 예시
데이터 구축 프로세스 정의 예시
[인공지능 (AI) 학습용 데이터 품질관리 가이드라인 (v.1.0)] 한국지능정보사회진흥원
[인공지능 (AI) 학습용 데이터셋 구축 안내서] 한국지능정보사회진흥원
줄글도 잘 읽히지만 표로 정리하는것도 도움이 됨
데이터 주석
데이터 주석 유형 1 분류
문장 또는 텍스트에 대한 분류 레이블 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등
구축 난이도는 일반적으로 낮은 편
https://opendatahub.io/news/2019-09-04/sentiment-analysis-blog.html
데이터 주석 유형 2 특정 범위(span) 주석 - NER
텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 - 개체명, 형태 분석 등
https://medium.com/@b.terryjack/nlp-pretrained-named-entity-recognition-7caa5cd28d7b
데이터 주석 유형 2 특정 범위(span) 주석 - 형태 분석
텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 - 개체명, 형태 분석 등
구축 난이도는 과제에 따라 다름
http://habit-project.eu/wiki/CorpusAnnotationTool
데이터 주석 유형 3 대상 간 관계 주석 - 개체명 연결
대상 간 관계를 주석하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등
두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편
https://brat.nlplab.org/introduction.html
데이터 주석 유형 3 대상 간 관계 주석 - 구문 분석
https://aclanthology.org/W17-7604.pdf
데이터 주석 유형 4 텍스트 생성 - 번역
주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등
https://www.researchgate.net/figure/The-HUME-annotation-tool-The-top-orange-box-contains-the-translation-The-source_fig2_312250884
데이터 주석 유형 5 그 외 - 복합 유형
앞선 유형의 데이터 구축 방식을 복합적으로 사용하여 다양한 정보를 주석하는 유형
질의 응답, 슬롯필링 대화 등
https://medium.com/uaslava/top-nlp-tools-for-chatbot-creators-38f5ecdc3655source
데이터 검수
오류 원인 분석
구축방법 측면의 오류 원인 : 모델 $\cdot$ 데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인하여 구축절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성
가이드라인 측면의 오류 원인 : 구축 가이드라인의 불완전성, 미준수로 인하여 작업자간 서로 상이하게 작업을 수행하거나 데이터간 일관성 위배
데이터셋 측면의 오류 원인 : 데이터셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등
학습모델 측면의 오류 원인 : 학습모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못된 경우
데이터 검수 유형
데이터 평가
데이터 구축 작업 설계 시 유의 사항
- 데이터 구축 기간은 넉넉하게 설정할 것
- 검수에 충분한 시간을 확보할 것
- 검수 내용을 어느 시점에 어떻게 반영할 것인가 하는 계획을 세울 것
- 품질 미달인 경우의 보완책을 마련할 것
- 작업 난이도에 따라 참여 인력을 산정하고, 참여 인력 모집 및 관리를 어떻게 할 것인지 고민할 것
- 각 단계별 작업의 주체를 고려할 것
- 각 단계별 검수 유형을 지정해둘 것
- 외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것
참고 문헌
Natural Language Annotation for Machine Learning Book by Amber Stubbs and James Pustejovsky
https://bit.ly/3aOw9Wg
댓글남기기