Day_66 02. 관계 추출 과제의 이해
작성일
관계 추출 과제의 이해
개체명 인식 & 관계 추출의 이해
관계 추출 관련 과제의 이해
개체명(Entity) 인식 NER, Named Entity Recognition
개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미
개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석함
KLUE 에서는 국제적인 기준에서 가장 널리 알려진 CoNLL 2003의 태그 체계 및 Stanford NER 을 바탕으로 국내 TTA 표준 지침의 주석 가이드라인에 따라 데이터를 구축함
PS(사람), LC(지역), OG(기관), DT(날짜), TI(시간), QT(수량)
MUC - Message Understanding Challenge
CoNLL - Conference Natural Language Learning
한국어는 굉장히 복잡한 유형의 tag set 이 되어있음
관계(Relation) 추출 RE, Relation Extract
관계 추출은 문장에서 나타난 개체명 쌍(Entity Pair)의 관계(Relation)을 판별하는 태스크
개체명 쌍은 관계의 주체(Subject)와 대상(Object)로 구성됨
KLUE 에서는 TACLED 에 기반하여 30개 관계 Class 를 설정하여 데이터를 구축함
개체명 연결 EL, Entity Linking
개체명을 인식(Named Entity Recognition)하고 모호성을 해소(Named Entity Disambiguation)하는 과제를 결합한 것
텍스트에서 추출된 개체명을 지식 베이스(knowledge base)와 연결하여 모호성을 해소함
AIDA CoNLL-YAGO Dataset 또는 TAC KBP English Entity Linking Comprehensive and Evaluation Data 2010 등이 있음
https://nlpprogress.com/english/entity_linking.html
DATA output : NER
CoNLL 형식
엑셀을 활용해서 검수
DATA output : RE
KLUE 데이터셋을 만들때
중간 단계(최종 단계)의 결과물
과제별 차이점
KLUE 데이터 구축시 문제점 : NER
2개 이상의 태그로 주석될 수 있는 개체명
$\rightarrow$ 맥락에 기반한 주석
ex)
서울시는 정책을 발표했다.
그 카페는 서울시 서대문구 연희동에 있다.
주석 대상의 범주
$\rightarrow$ 구체적 범주 및 기준 명시
ex)
A급, B급, C급, 삼류(3류)
KLUE 데이터 구축시 문제점 : RE
한국어 데이터 현실에 맞지 않는 주석
$\rightarrow$ 태그 통폐합 및 추가
ex)
지역 관련 태그 통합, 사람, 기관의 작품 및 생산물 관련 태그 추가
KB(Knowledge base)의 활용
$\rightarrow$ 일부만 활용
데이터 구축시 문제점 : EL
적합한 KB(Knowledge base) 선정의 문제
현재 AI HUB 에 공개된 KB 의 경우 제한적인 저작권 아래서 활용이 가능함
위키 데이터를 활용하여 자체적인 지식베이스를 구축하여 활용하거나, 서비스 도메인에 맞는 지식베이스를 구축하여 활용할 수 있음
지식베이스를 구축하는 것 자체가 많은 비용과 자원이 드는 일이므로 이에 대한 대비가 필요함
이러한 데이터를 만드는 이유?
NER, RE, EL 은 기본적으로 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적
따라서 이 과정에서 지식 베이스가 활용되기도 하고, 이 결과물이 지식 베이스가 되기도 함
정보처리의 관점에서 구조화된 정보의 활용도가 높기 때문에 이러한 시도는 앞으로도 계속 될 것
Knowledge Graph
https://edezhic.medium.com/understanding-knowledge-graphs-5cb05593eb84
node 들이 개체명이되고 edge 가 relation 이 됨
https://ahrefs.com/blog/google-knowledge-graph/
구글에서 사용하는 knowledge graph 예시임
NER, RE, EL 의 활용
검색 시스템
https://medium.com/analytics-vidhya/entity-linking-a-primary-nlp-task-for-information-extraction-22f9d4b90aa8
HR 챗봇 예시
https://cobusgreyling.medium.com/fundamentals-of-chatbot-information-extraction-visualization-cc4a42e69c62
구글 핀포인트
이런 것들을 구현할 때 NER, RE, EL 을 활용함
댓글남기기