Reducing Training Bias

Definition of Bias

Bias의 종류
- Bias in learning
  - 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것(inductive bias)
- A Biased World
  - 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias)
  - 성별과 직업 간 관계 등 표면적인 상관관계 때문에 원치 않는 속성이 학습되는 것 (co-occurrence bias)
- Bias in Data Generation
  - 입력과 출력을 정의한 방식 때문에 생기는 편향 (specification bias)
  - 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias)
  - 어노테이터의 특성 때문에 생기는 편향 (annotator bias)
Gender Bias
- 대표적인 bias 예시
- 특정 성별과 행동을 연관시켜서 예측 오류가 발생
  
  “Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constrains” in EMNLP 2017
  
  https://ai.googleblog.com/2020/04/a-scalable-approach-to-reducing-gender.html

Sampling Bias
- <리터러시 다이제스트> 여론조사 (1936년)
  - 표본 크기 : 240만 명 (사상 최대)
  - 예측: 루즈벨트 43% 알프레드 랜던 57% → 실제: 루즈벨트 62% 알프레드 랜던 38%
  - 설문 대상: 잡지 정기구독자, 자동차 등록명부, 사교클럽 인명부 등 → 중산층 이상으로 표본이 왜곡
  - 2년 후 리터러시 다이제스트 파산

Bias in Open-domain Question Answering

Retriever-Reader Pipeline
Training bias in reader model
- 만약 reader 모델이 한정된 데이터셋에서만 학습이 된다면…
  - Reader 모델은 항상 정답이 문서 내에 포함된 데이터쌍만(Positive)을 보게 됨
  - 예) 특히 SQuAD와 같은 (context, query, answer)이 모두 포함된 데이터는 positive가 완전히 고정되어 있음
  - ⇒ Inference 시 만약 데이터 내에서 찾아볼 수 없었던 새로운 문서를 준다면?
  - ⇒ Reader 모델은 문서에 대한 독해 능력이 매우 떨어질 것이고, 결과적으로 정답을 내지 못할 것임
How to mitigate training bias?
1. Train negative examples
  - 훈련할 때 잘못된 예시를 보여줘야 retriever이 negative한 내용들은 먼 곳에 배치할 수 있음
  - ⇒ Negative sample도 완전히 다른 negative와 비슷한 negative에 대한 차이 고려가 필요함
  - 어떻게 (좋은) Negative sample을 만들 수 있을까?
    1. Corpus 내에서 랜덤하게 뽑기
    2. 좀 더 헷갈리는 Negative 샘플들 뽑기
      - ⇒ 높은 BM25 / TF-IDF 매칭 스코어를 가지지만, 답을 포함하지 않는 샘플
      - ⇒ 같은 문서에서 나온 다른 Passage/Question 선택하기
2. Add no answer bias
  - 입력 시퀀스의 길이가 N 일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각하기
  - ⇒ 훈련 모델의 마지막 레이어 weight에 훈련 가능한 bias를 하나 더 추가
  - ⇒ Softmax로 answer prediction을 최종적으로 수행할 때, start end 확률이 해당 bias 위치에 있는 경우가 가장 확률이 높으면 이는 “대답할 수 없다” 라고 취급

Annotation Bias from Datasets

What is annotation bias?
- Annotation bias
  - ODQA 학습 시 기존의 MRC 데이터셋 활용
  - ⇒ ODQA 세팅에는 적합하지 않은 bias가 데이터 제작(annotation) 단계에서 발생할 수 있음
  - ⇒ 질문을 하는 사람이 답을 알고 있음 / 질문과 evidence 문단 사이의 많은 단어가 겹치는 bias 발생 가능
  - ⇒ SQuAD : only 500+ wiki article ⇒ 학습 데이터의 분포 자체가 이미 bias 되어 있음
  - TriviaQA와 SQuAD는 question을 쓰는 사람이 답을 알고있을 뿐만 아니라 SQuAD는 답이 어느 문단에서 나오는지까지 알고 있기 때문에 bias가 더 심해짐
Effect of annotation bias
- Annotation bias
  - ODQA 세팅에는 적합하지 않음 bias가 데이터 제작(annotation) 단계에서 발생할 수 있음
  - ⇒ 데이터셋 별 성능 차이가 annotation bias로 인해 발생할 수 있음
  - BM25 : Sparse embedding / DPR : Dense embedding
Dealing with annotation bias
- Annotation 단계에서 발생할 수 있는 bias를 인지하고, 이를 고려하여 데이터를 모아야 함
- ex) ODQA 세팅과 유사한 데이터 수집 방법
- ⇒ Natural Questions: Supporting evidence가 주어지지 않은, 실제 유저의 question들을 모아서 dataset을 구성
  
  https://ai.google.com/research/NaturalQuestions/visualization
Another bias in MRC dataset
- SQuAD: Passage가 주어지고, 주어진 passage 내에서 질문과 답을 생성
- ⇒ ODQA에 applicable하지 않은 질문들이 존재
- 'what did he do for $2 a day?'라는 문장은 ODQA에서 he가 누군지도 모르고 안다고 해도 2달러로 하루에 어떤 일을 하는지 알 방법이 없음

출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)