Notice
Recent Posts
Recent Comments
Link
250x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- mrc
- AI 경진대회
- Optimization
- Transformer
- 데이터 시각화
- Data Viz
- Attention
- RNN
- AI Math
- dataset
- seaborn
- Ai
- pyTorch
- N21
- ODQA
- Bert
- matplotlib
- KLUE
- 데이터 구축
- 현대자동차
- Self-attention
- passage retrieval
- nlp
- Bart
- 기아
- N2N
- GPT
- word2vec
- 딥러닝
- 2023 현대차·기아 CTO AI 경진대회
Archives
- Today
- Total
쉬엄쉬엄블로그
(데이터 제작) 관계 추출 데이터 구축 실습 본문
728x90
이 색깔은 주석이라 무시하셔도 됩니다.
관계 추출 데이터 구축 실습
과제 정의
과제 정의 시 고려할 요소
과제의 목적
- 관계 추출(Relation Extraction)이란 문장에 등장하는 두 개체 간의 관계를 주석하는 것이다.
- 관계 추출의 대상이 되는 개체명을 인식하고, 각 개체가 주체(subject)인지 대상(object)인지를 파악한 뒤 그 둘 간의 관계를 주석한다.
- 주체와 대상, 관계로 이루어진 트리플(triplet)을 완성한다.
- 특정한 도메인에 맞추어 관계 분류(Class) 목록을 확장하고, 확장된 관계로 주석한 데이터를 만든다.
데이터 구축 규모
기존 데이터의 구축 규모
기간을 정해놓고 프로젝트를 하는 경우에는 기간 내에 가능한 정도의 규모를 적당하게 잡는 것이 중요
원시 데이터
- 기존 데이터의 출처
- TACRED
- TAC KBP challenge 2009~2014
- Train 2009~2012, Dev 2013, Test 2014
- TAC KBP challenge 2009~2014
- KLUE
- Wikipedia, Wikitree, 정책브리핑
- 둘 이상의 개체와 개체 간의 관계를 추출할 만한 문장이 포함된 텍스트 선정
- TACRED
- 기존 데이터의 출처
데이터의 주석 체계
데이터 주석 도구
- 주석 단계 세분화 후, 주석 도구 결정
- 트리플(Triplet) 형태의 주석이 가능한 도구 선정 필요
- 필요 기능
- 문자열에서 개체명 선택
(개체명 인식이 되어 있는 자원을 사용하는 경우는 고려 대상 아님) - 개체명에 대한 레이블(label) 선택
(개체명 인식이 되어 있는 자원을 사용하는 경우는 고려 대상 아님) - 개체명에 대한 관계선(edge) 그리기
- 관계선에 대한 레이블(label) 선택
- 문자열에서 개체명 선택
- Tagtog
데이터의 형식
어떤 모델을 사용할지에 따라 형식이 결정됨
TACRED, CoNLL
TACRED, JSON
KLUE, JSON
데이터 검수
- 데이터 형식의 정확도
- 관계 레이블의 정확도
- 관계 추출 정확도
- 검수 규모 정하기
- 전수 또는 특정 비율
데이터 평가
- 작업자간 일치도(IAA, Inter-Annotator Agreement)
- Fleiss’k (TACRED)
- Krippendorff’s a(KLUE)
- Fleiss’k와 다르게 결측값이 있을 때도 사용 가능
- 0.7 이상이면 신뢰할만하다
- 모델 성능 평가
- 정밀도(Precision), 재현율(Recall), F1(TACRED)
- Micro F1, AUPRC(area under the precisionrecall curve) (KLUE)
- class imbalanced 때문에 micro f1을 사용함
- 작업자간 일치도(IAA, Inter-Annotator Agreement)
데이터 구축 프로세스
단계 | 수행 업무 | 비고 |
---|---|---|
과제 정의 | 과제 수행에 필요한 기본 사항들을 정의함, 기존 데이터를 참고하여 세부 사항 결정 | |
주석 데이터 확보 | 가용 가능한 원시 데이터 확보, 데이터별 장단점 비교 | RE와 같이 2단계 주석이 필요한 경우 모델을 통한 사전 가공도 이 단계에서 진행 |
가이드라인 작성 | 작업자에게 제공할 가이드라인 작성 | |
파일럿 구축 | 가이드라인을 적용하여 실제 상황과 동일하게 파일럿 구축 작업 시행 | 주석 도구 결정이 이루어지지 않은 경우 간단한 도구를 이용하여 파일럿보다 미리 샘플 구축 작업 시행 |
파일럿 검수 | 파일럿 구축을 통해 이슈 발견, 모델 평가 진행 | |
가이드라인 개정 | 파일럿 구축 검수 단계에서 발견된 이슈 반영 | |
본 구축 | 실제 구축 작업 시행 | |
본 구축 검수 | 검수 기준에 맞춘 데이터 검수, 모델 평가 진행 | |
데이터 개정 | 검수 사항에 맞춰 데이터 개정 | |
데이터 완성 | 기준을 세워 데이터 학습/검증/평가용으로 분리(split) | 레이블 균형 고려 |
가이드라인 작성
핵심 내용 : 주석 작업을 위한 가이드라인
- 작업 목적
- 작업 도구 사용법
- 작업 대상 문장과 아닌 문장 구분 기준
- 레이블별 주석 기준
출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)
'부스트캠프 AI Tech 4기' 카테고리의 다른 글
(MRC) Extraction-based MRC (1) | 2023.09.07 |
---|---|
(MRC) MRC Intro (0) | 2023.09.06 |
(데이터 제작) 관계 추출 관련 논문 읽기 (0) | 2023.09.04 |
(데이터 제작) 관계 추출 과제의 이해 (1) | 2023.09.02 |
(데이터 제작) 데이터 구축 가이드라인 작성 기초 (0) | 2023.09.01 |
Comments