쉬엄쉬엄블로그

(데이터 제작) 관계 추출 과제의 이해 본문

부스트캠프 AI Tech 4기

(데이터 제작) 관계 추출 과제의 이해

쉬엄쉬엄블로그 2023. 9. 2. 13:22
728x90

이 색깔은 주석이라 무시하셔도 됩니다.

관계 추출 과제의 이해

개체명 인식 & 관계 추출의 이해

꽃 - 김춘수

관계 추출 관련 과제의 이해

개체명(Entity) 인식 NER, Named Entity Recognition

  • 개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미

  • 개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석함

  • KLUE에서는 국제적인 기준에서 가장 널리 알려진 CoNLL 2003의 태그 체계 및 Stanford NER을 바탕으로 국내 TTA 표준 지침의 주석 가이드라인에 따라 데이터를 구축함

    • PS(사람), LC(지역), OG(기관), DT(날짜), TI(시간), QT(수량)

  • 자연어처리를 한다는 것은 언어에 대한 이해가 필요할 수 밖에 없음
    • 기본적인 지식은 이해하는 것이 좋음

관계 추출 관련 과제의 이해 - NER

  • TTA 표준

  • 한국의 첫 인공지능 프로젝트인 엑소브레인 프로젝트는 장학 퀴즈에서 인공지능이 사람을 이기기 위한 프로젝트여서 개체명 인식을 할 때 다양한 지식이 쓰여있는 텍스트에서 개체에 해당하는 정보를 학습하는 것이 중요했기 때문에 다양한 태그셋이 등장하게 됨

관계 추출 관련 과제의 이해 - RE

관계(Relation) 추출 RE, Relation Extract

  • 관계 추출은 문장에서 나타난 개체명 쌍(Entity Pair)의 관계(Relation)을 판별하는 태스크
  • 개체명 쌍은 관계의 주체(Subject)와 대상(Object)로 구성됨
  • KLUE에서는 TACLED에 기반하여 30개 관계 Class를 설정하여 데이터를 구축함

관계 추출 관련 과제의 이해 - EL

개체명 연결 EL, Entity Linking

http://nlpprogress.com/english/entity_linking.html

  • 개체명을 인식(Named Entity Recognition)하고 모호성을 해소(Named Entity Disambiguation)하는 과제를 결합한 것
  • 텍스트에서 추출된 개체명을 지식 베이스(knowledge base)와 연결하여 모호성을 해소함
  • AIDA CoNLL-YAGO Dataset 또는 TAC KBP English Entity Linking Comprehensive and Evaluation Data 2010 등이 있음
  • 단어와 지식 베이스(knowledge graph)의 URL을 linking 해주고 비교해줌

DATA output : NER

  • 텍스트에 태그를 씌운 형태로 주석함

  • 음절 기반으로 잘라서 BIO 태그를 붙인 형태로 주석함

  • 데이터 검수 화면

DATA output : RE

과제별 차이점

  • 개체를 보는 관점
  • 대상 개체의 분류 레이블(태그 체계) 차이
  • 관계에 대한 주석 여부, 참조 지원

KLUE 데이터 구축시 문제점 : NER

2개 이상의 태그로 주석될 수 있는 개체명

→ 맥락에 기반한 주석

ex)

  • 서울시는 정책을 발표했다.
  • 그 카페는 서울시 서대문구 연희동에 있다.

주석 대상의 범주

→ 구체적 범주 및 기준 명시

ex)

  • A급, B급, C급, 삼류(3류)

KLUE 데이터 구축시 문제점 : RE

한국어 데이터 현실에 맞지 않는 주석

→ 태그 통폐합 및 추가

ex)

  • 지역 관련 태그 통합
  • 사람, 기관의 작품 및 생산물 관련 태그 추가

KB(Knowledge base)의 활용

→ 일부만 활용

데이처 구축시 문제점 : EL

적합한 KB(Knowledge base) 선정의 문제

  • 현재 AI HUB에 공개된 KB의 경우 제한적인 저작권 아래서 활용이 가능함
  • 위키 데이터를 활용하여 자체적인 지식베이스를 구축하여 활용하거나, 서비스 도메인에 맞는 지식베이스를 구축하여 활용할 수 있음
  • 지식베이스를 구축하는 것 자체가 많은 비용과 자원이 드는 일이므로 이에 대한 대비가 필요함

이러한 데이터를 만드는 이유?

  • NER, RE, EL은 기본적으로 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적
  • 따라서 이 과정에서 지식 베이스가 활용되기도 하고, 이 결과물이 지식 베이스가 되기도 함
  • 정보처리의 관점에서 구조화된 정보의 활용도가 높기 때문에 이러한 시도는 앞으로도 계속 될 것

Knowledge Graph

https://edezhic.medium.com/understanding-knowledge-graphs-5cb05593eb84

  • 이러한 구조가 구글에서 사용하는 Knowledge Graph의 기본이 되었음

NER, RE, EL의 활용

검색 시스템

HR 챗봇 예시

https://cobusgreyling.medium.com/fundamentals-of-chatbot-information-extraction-visualizationcc4a42e69c62

구글 핀포인트

  • 이러한 서비스들을 구현할 때 NER, RE, EL 같은 기술들이 활용됨

출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)

Comments