(MRC) Reducing Training Bias
이 색깔은 주석이라 무시하셔도 됩니다.
Reducing Training Bias
Definition of Bias
Bias의 종류
- Bias in learning
- 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것(inductive bias)
- A Biased World
- 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias)
- 성별과 직업 간 관계 등 표면적인 상관관계 때문에 원치 않는 속성이 학습되는 것 (co-occurrence bias)
- Bias in Data Generation
- 입력과 출력을 정의한 방식 때문에 생기는 편향 (specification bias)
- 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias)
- 어노테이터의 특성 때문에 생기는 편향 (annotator bias)
- Bias in learning
Gender Bias
대표적인 bias 예시
특정 성별과 행동을 연관시켜서 예측 오류가 발생
“Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constrains” in EMNLP 2017 https://ai.googleblog.com/2020/04/a-scalable-approach-to-reducing-gender.html
- Sampling Bias
- <리터러시 다이제스트> 여론조사 (1936년)
- 표본 크기 : 240만 명 (사상 최대)
- 예측: 루즈벨트 43% 알프레드 랜던 57% → 실제: 루즈벨트 62% 알프레드 랜던 38%
- 설문 대상: 잡지 정기구독자, 자동차 등록명부, 사교클럽 인명부 등 → 중산층 이상으로 표본이 왜곡
- 2년 후 리터러시 다이제스트 파산
- <리터러시 다이제스트> 여론조사 (1936년)
Bias in Open-domain Question Answering
Retriever-Reader Pipeline
Training bias in reader model
만약 reader 모델이 한정된 데이터셋에서만 학습이 된다면…
Reader 모델은 항상 정답이 문서 내에 포함된 데이터쌍만(Positive)을 보게 됨
예) 특히 SQuAD와 같은 (context, query, answer)이 모두 포함된 데이터는 positive가 완전히 고정되어 있음
⇒ Inference 시 만약 데이터 내에서 찾아볼 수 없었던 새로운 문서를 준다면?
⇒ Reader 모델은 문서에 대한 독해 능력이 매우 떨어질 것이고, 결과적으로 정답을 내지 못할 것임
How to mitigate training bias?
- Train negative examples
- 훈련할 때 잘못된 예시를 보여줘야 retriever이 negative한 내용들은 먼 곳에 배치할 수 있음
- ⇒ Negative sample도 완전히 다른 negative와 비슷한 negative에 대한 차이 고려가 필요함
- 어떻게 (좋은) Negative sample을 만들 수 있을까?
- Corpus 내에서 랜덤하게 뽑기
- 좀 더 헷갈리는 Negative 샘플들 뽑기
- ⇒ 높은 BM25 / TF-IDF 매칭 스코어를 가지지만, 답을 포함하지 않는 샘플
- ⇒ 같은 문서에서 나온 다른 Passage/Question 선택하기
- Add no answer bias
- 입력 시퀀스의 길이가 N 일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각하기
- ⇒ 훈련 모델의 마지막 레이어 weight에 훈련 가능한 bias를 하나 더 추가
- ⇒ Softmax로 answer prediction을 최종적으로 수행할 때, start end 확률이 해당 bias 위치에 있는 경우가 가장 확률이 높으면 이는 “대답할 수 없다” 라고 취급
- Train negative examples
Annotation Bias from Datasets
What is annotation bias?
Annotation bias
ODQA 학습 시 기존의 MRC 데이터셋 활용
⇒ ODQA 세팅에는 적합하지 않은 bias가 데이터 제작(annotation) 단계에서 발생할 수 있음
⇒ 질문을 하는 사람이 답을 알고 있음 / 질문과 evidence 문단 사이의 많은 단어가 겹치는 bias 발생 가능
⇒ SQuAD : only 500+ wiki article ⇒ 학습 데이터의 분포 자체가 이미 bias 되어 있음
TriviaQA와 SQuAD는 question을 쓰는 사람이 답을 알고있을 뿐만 아니라 SQuAD는 답이 어느 문단에서 나오는지까지 알고 있기 때문에 bias가 더 심해짐
Effect of annotation bias
Annotation bias
ODQA 세팅에는 적합하지 않음 bias가 데이터 제작(annotation) 단계에서 발생할 수 있음
⇒ 데이터셋 별 성능 차이가 annotation bias로 인해 발생할 수 있음
BM25 : Sparse embedding / DPR : Dense embedding
Dealing with annotation bias
Annotation 단계에서 발생할 수 있는 bias를 인지하고, 이를 고려하여 데이터를 모아야 함
ex) ODQA 세팅과 유사한 데이터 수집 방법
⇒ Natural Questions: Supporting evidence가 주어지지 않은, 실제 유저의 question들을 모아서 dataset을 구성
https://ai.google.com/research/NaturalQuestions/visualization
Another bias in MRC dataset
SQuAD: Passage가 주어지고, 주어진 passage 내에서 질문과 답을 생성
⇒ ODQA에 applicable하지 않은 질문들이 존재
'what did he do for $2 a day?'라는 문장은 ODQA에서 he가 누군지도 모르고 안다고 해도 2달러로 하루에 어떤 일을 하는지 알 방법이 없음
출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)