Notice
Recent Posts
Recent Comments
Link
250x250
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Self-attention
- Attention
- Bert
- Ai
- matplotlib
- Bart
- 데이터 구축
- Data Viz
- GPT
- AI Math
- N2N
- mrc
- ODQA
- Transformer
- Optimization
- 현대자동차
- seaborn
- pyTorch
- passage retrieval
- KLUE
- word2vec
- dataset
- N21
- 2023 현대차·기아 CTO AI 경진대회
- AI 경진대회
- 딥러닝
- 기아
- nlp
- 데이터 시각화
- RNN
Archives
- Today
- Total
쉬엄쉬엄블로그
(데이터 제작) 관계 추출 과제의 이해 본문
728x90
이 색깔은 주석이라 무시하셔도 됩니다.
관계 추출 과제의 이해
개체명 인식 & 관계 추출의 이해


관계 추출 관련 과제의 이해
개체명(Entity) 인식 NER, Named Entity Recognition
개체명이란 인명, 지명, 기관명 등과 같은 고유명사나 명사구를 의미
개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고, 각 개체명에 해당하는 태그를 주석함
KLUE에서는 국제적인 기준에서 가장 널리 알려진 CoNLL 2003의 태그 체계 및 Stanford NER을 바탕으로 국내 TTA 표준 지침의 주석 가이드라인에 따라 데이터를 구축함
PS(사람), LC(지역), OG(기관), DT(날짜), TI(시간), QT(수량)

- 자연어처리를 한다는 것은 언어에 대한 이해가 필요할 수 밖에 없음
- 기본적인 지식은 이해하는 것이 좋음
관계 추출 관련 과제의 이해 - NER


- TTA 표준




- 한국의 첫 인공지능 프로젝트인 엑소브레인 프로젝트는 장학 퀴즈에서 인공지능이 사람을 이기기 위한 프로젝트여서 개체명 인식을 할 때 다양한 지식이 쓰여있는 텍스트에서 개체에 해당하는 정보를 학습하는 것이 중요했기 때문에 다양한 태그셋이 등장하게 됨
관계 추출 관련 과제의 이해 - RE
관계(Relation) 추출 RE, Relation Extract
- 관계 추출은 문장에서 나타난 개체명 쌍(Entity Pair)의 관계(Relation)을 판별하는 태스크
- 개체명 쌍은 관계의 주체(Subject)와 대상(Object)로 구성됨
- KLUE에서는 TACLED에 기반하여 30개 관계 Class를 설정하여 데이터를 구축함

관계 추출 관련 과제의 이해 - EL
개체명 연결 EL, Entity Linking

- 개체명을 인식(Named Entity Recognition)하고 모호성을 해소(Named Entity Disambiguation)하는 과제를 결합한 것
- 텍스트에서 추출된 개체명을 지식 베이스(knowledge base)와 연결하여 모호성을 해소함
- AIDA CoNLL-YAGO Dataset 또는 TAC KBP English Entity Linking Comprehensive and Evaluation Data 2010 등이 있음
- 단어와 지식 베이스(knowledge graph)의 URL을 linking 해주고 비교해줌
DATA output : NER
텍스트에 태그를 씌운 형태로 주석함

음절 기반으로 잘라서 BIO 태그를 붙인 형태로 주석함

데이터 검수 화면

DATA output : RE



과제별 차이점

- 개체를 보는 관점
- 대상 개체의 분류 레이블(태그 체계) 차이
- 관계에 대한 주석 여부, 참조 지원
KLUE 데이터 구축시 문제점 : NER
2개 이상의 태그로 주석될 수 있는 개체명
→ 맥락에 기반한 주석
ex)
- 서울시는 정책을 발표했다.
- 그 카페는 서울시 서대문구 연희동에 있다.
주석 대상의 범주
→ 구체적 범주 및 기준 명시
ex)
- A급, B급, C급, 삼류(3류)
KLUE 데이터 구축시 문제점 : RE
한국어 데이터 현실에 맞지 않는 주석
→ 태그 통폐합 및 추가
ex)
- 지역 관련 태그 통합
- 사람, 기관의 작품 및 생산물 관련 태그 추가
KB(Knowledge base)의 활용
→ 일부만 활용
데이처 구축시 문제점 : EL
적합한 KB(Knowledge base) 선정의 문제
- 현재 AI HUB에 공개된 KB의 경우 제한적인 저작권 아래서 활용이 가능함
- 위키 데이터를 활용하여 자체적인 지식베이스를 구축하여 활용하거나, 서비스 도메인에 맞는 지식베이스를 구축하여 활용할 수 있음
- 지식베이스를 구축하는 것 자체가 많은 비용과 자원이 드는 일이므로 이에 대한 대비가 필요함
이러한 데이터를 만드는 이유?
- NER, RE, EL은 기본적으로 비구조화된 텍스트에서 정보를 추출하여 구조화하려는 것이 목적
- 따라서 이 과정에서 지식 베이스가 활용되기도 하고, 이 결과물이 지식 베이스가 되기도 함
- 정보처리의 관점에서 구조화된 정보의 활용도가 높기 때문에 이러한 시도는 앞으로도 계속 될 것
Knowledge Graph


- 이러한 구조가 구글에서 사용하는 Knowledge Graph의 기본이 되었음
NER, RE, EL의 활용
검색 시스템

HR 챗봇 예시

구글 핀포인트

- 이러한 서비스들을 구현할 때 NER, RE, EL 같은 기술들이 활용됨
출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)
'부스트캠프 AI Tech 4기' 카테고리의 다른 글
| (데이터 제작) 관계 추출 데이터 구축 실습 (0) | 2023.09.05 |
|---|---|
| (데이터 제작) 관계 추출 관련 논문 읽기 (0) | 2023.09.04 |
| (데이터 제작) 데이터 구축 가이드라인 작성 기초 (0) | 2023.09.01 |
| (데이터 제작) 데이터 구축 작업 설계 (0) | 2023.08.31 |
| (데이터 제작) 원시 데이터의 수집과 가공 (0) | 2023.08.30 |
Comments