부스트캠프 AI Tech 4기

(MRC) Reducing Training Bias

쉬엄쉬엄블로그 2023. 9. 15. 11:22
728x90

이 색깔은 주석이라 무시하셔도 됩니다.

Reducing Training Bias

Definition of Bias

  • Bias의 종류

    • Bias in learning
      • 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것(inductive bias)
    • A Biased World
      • 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias)
      • 성별과 직업 간 관계 등 표면적인 상관관계 때문에 원치 않는 속성이 학습되는 것 (co-occurrence bias)
    • Bias in Data Generation
      • 입력과 출력을 정의한 방식 때문에 생기는 편향 (specification bias)
      • 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias)
      • 어노테이터의 특성 때문에 생기는 편향 (annotator bias)
  • Gender Bias

    • 대표적인 bias 예시

    • 특정 성별과 행동을 연관시켜서 예측 오류가 발생

      “Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constrains” in EMNLP 2017

      https://ai.googleblog.com/2020/04/a-scalable-approach-to-reducing-gender.html

  • Sampling Bias
    • <리터러시 다이제스트> 여론조사 (1936년)
      • 표본 크기 : 240만 명 (사상 최대)
      • 예측: 루즈벨트 43% 알프레드 랜던 57% → 실제: 루즈벨트 62% 알프레드 랜던 38%
      • 설문 대상: 잡지 정기구독자, 자동차 등록명부, 사교클럽 인명부 등 → 중산층 이상으로 표본이 왜곡
      • 2년 후 리터러시 다이제스트 파산

Bias in Open-domain Question Answering

  • Retriever-Reader Pipeline

  • Training bias in reader model

    • 만약 reader 모델이 한정된 데이터셋에서만 학습이 된다면…

      • Reader 모델은 항상 정답이 문서 내에 포함된 데이터쌍만(Positive)을 보게 됨

      • 예) 특히 SQuAD와 같은 (context, query, answer)이 모두 포함된 데이터는 positive가 완전히 고정되어 있음

      • ⇒ Inference 시 만약 데이터 내에서 찾아볼 수 없었던 새로운 문서를 준다면?

      • ⇒ Reader 모델은 문서에 대한 독해 능력이 매우 떨어질 것이고, 결과적으로 정답을 내지 못할 것임

  • How to mitigate training bias?

    1. Train negative examples
      • 훈련할 때 잘못된 예시를 보여줘야 retriever이 negative한 내용들은 먼 곳에 배치할 수 있음
      • ⇒ Negative sample도 완전히 다른 negative와 비슷한 negative에 대한 차이 고려가 필요함
      • 어떻게 (좋은) Negative sample을 만들 수 있을까?
        1. Corpus 내에서 랜덤하게 뽑기
        2. 좀 더 헷갈리는 Negative 샘플들 뽑기
          • ⇒ 높은 BM25 / TF-IDF 매칭 스코어를 가지지만, 답을 포함하지 않는 샘플
          • ⇒ 같은 문서에서 나온 다른 Passage/Question 선택하기
    2. Add no answer bias
      • 입력 시퀀스의 길이가 N 일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각하기
      • ⇒ 훈련 모델의 마지막 레이어 weight에 훈련 가능한 bias를 하나 더 추가
      • ⇒ Softmax로 answer prediction을 최종적으로 수행할 때, start end 확률이 해당 bias 위치에 있는 경우가 가장 확률이 높으면 이는 “대답할 수 없다” 라고 취급

Annotation Bias from Datasets

  • What is annotation bias?

    • Annotation bias

      • ODQA 학습 시 기존의 MRC 데이터셋 활용

      • ⇒ ODQA 세팅에는 적합하지 않은 bias가 데이터 제작(annotation) 단계에서 발생할 수 있음

      • ⇒ 질문을 하는 사람이 답을 알고 있음 / 질문과 evidence 문단 사이의 많은 단어가 겹치는 bias 발생 가능

      • ⇒ SQuAD : only 500+ wiki article ⇒ 학습 데이터의 분포 자체가 이미 bias 되어 있음

      • TriviaQA와 SQuAD는 question을 쓰는 사람이 답을 알고있을 뿐만 아니라 SQuAD는 답이 어느 문단에서 나오는지까지 알고 있기 때문에 bias가 더 심해짐

  • Effect of annotation bias

    • Annotation bias

      • ODQA 세팅에는 적합하지 않음 bias가 데이터 제작(annotation) 단계에서 발생할 수 있음

      • ⇒ 데이터셋 별 성능 차이가 annotation bias로 인해 발생할 수 있음

      • BM25 : Sparse embedding / DPR : Dense embedding

  • Dealing with annotation bias

    • Annotation 단계에서 발생할 수 있는 bias를 인지하고, 이를 고려하여 데이터를 모아야 함

    • ex) ODQA 세팅과 유사한 데이터 수집 방법

    • ⇒ Natural Questions: Supporting evidence가 주어지지 않은, 실제 유저의 question들을 모아서 dataset을 구성

      https://ai.google.com/research/NaturalQuestions/visualization

  • Another bias in MRC dataset

    • SQuAD: Passage가 주어지고, 주어진 passage 내에서 질문과 답을 생성

    • ⇒ ODQA에 applicable하지 않은 질문들이 존재

    • 'what did he do for $2 a day?'라는 문장은 ODQA에서 he가 누군지도 모르고 안다고 해도 2달러로 하루에 어떤 일을 하는지 알 방법이 없음

출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)