Day_66 02. 관계 추출 과제의 이해

작성일

2 분 소요

관계 추출 과제의 이해

개체명 인식 & 관계 추출의 이해

관계 추출 관련 과제의 이해

개체명(Entity) 인식 NER, Named Entity Recognition

개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미

개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석함

KLUE 에서는 국제적인 기준에서 가장 널리 알려진 CoNLL 2003의 태그 체계 및 Stanford NER 을 바탕으로 국내 TTA 표준 지침의 주석 가이드라인에 따라 데이터를 구축함

PS(사람), LC(지역), OG(기관), DT(날짜), TI(시간), QT(수량)

MUC - Message Understanding Challenge

CoNLL - Conference Natural Language Learning

한국어는 굉장히 복잡한 유형의 tag set 이 되어있음

관계(Relation) 추출 RE, Relation Extract

관계 추출은 문장에서 나타난 개체명 쌍(Entity Pair)의 관계(Relation)을 판별하는 태스크

개체명 쌍은 관계의 주체(Subject)와 대상(Object)로 구성됨

KLUE 에서는 TACLED 에 기반하여 30개 관계 Class 를 설정하여 데이터를 구축함

개체명 연결 EL, Entity Linking

개체명을 인식(Named Entity Recognition)하고 모호성을 해소(Named Entity Disambiguation)하는 과제를 결합한 것

텍스트에서 추출된 개체명을 지식 베이스(knowledge base)와 연결하여 모호성을 해소함

AIDA CoNLL-YAGO Dataset 또는 TAC KBP English Entity Linking Comprehensive and Evaluation Data 2010 등이 있음

https://nlpprogress.com/english/entity_linking.html

DATA output : NER

CoNLL 형식

엑셀을 활용해서 검수

DATA output : RE

KLUE 데이터셋을 만들때

중간 단계(최종 단계)의 결과물

과제별 차이점

KLUE 데이터 구축시 문제점 : NER

2개 이상의 태그로 주석될 수 있는 개체명

$\rightarrow$ 맥락에 기반한 주석

ex)

서울시는 정책을 발표했다.  
그 카페는 서울시 서대문구 연희동에 있다.

주석 대상의 범주

$\rightarrow$ 구체적 범주 및 기준 명시

ex)

A급, B급, C급, 삼류(3류)

KLUE 데이터 구축시 문제점 : RE

한국어 데이터 현실에 맞지 않는 주석

$\rightarrow$ 태그 통폐합 및 추가

ex)

지역 관련 태그 통합, 사람, 기관의 작품 및 생산물 관련 태그  추가

KB(Knowledge base)의 활용

$\rightarrow$ 일부만 활용

데이터 구축시 문제점 : EL

적합한 KB(Knowledge base) 선정의 문제

현재 AI HUB 에 공개된 KB 의 경우 제한적인 저작권 아래서 활용이 가능함

위키 데이터를 활용하여 자체적인 지식베이스를 구축하여 활용하거나, 서비스 도메인에 맞는 지식베이스를 구축하여 활용할 수 있음

지식베이스를 구축하는 것 자체가 많은 비용과 자원이 드는 일이므로 이에 대한 대비가 필요함

이러한 데이터를 만드는 이유?

NER, RE, EL 은 기본적으로 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적

따라서 이 과정에서 지식 베이스가 활용되기도 하고, 이 결과물이 지식 베이스가 되기도 함

정보처리의 관점에서 구조화된 정보의 활용도가 높기 때문에 이러한 시도는 앞으로도 계속 될 것

Knowledge Graph

https://edezhic.medium.com/understanding-knowledge-graphs-5cb05593eb84

node 들이 개체명이되고 edge 가 relation 이 됨

https://ahrefs.com/blog/google-knowledge-graph/

구글에서 사용하는 knowledge graph 예시임

NER, RE, EL 의 활용

검색 시스템

https://medium.com/analytics-vidhya/entity-linking-a-primary-nlp-task-for-information-extraction-22f9d4b90aa8

HR 챗봇 예시

https://cobusgreyling.medium.com/fundamentals-of-chatbot-information-extraction-visualization-cc4a42e69c62

구글 핀포인트

이런 것들을 구현할 때 NER, RE, EL 을 활용함

Further Reading

댓글남기기