쉬엄쉬엄블로그

(KLUE) GPT 언어 모델 본문

부스트캠프 AI Tech 4기

(KLUE) GPT 언어 모델

쉬엄쉬엄블로그 2023. 8. 22. 13:36
728x90

이 색깔은 주석이라 무시하셔도 됩니다.

한국어 언어 모델 학습 및 다중 과제 튜닝

GPT 언어 모델

  • BERT 모델은 자연어에 대한 임베딩 모델이라 할 수 있고 GPT는 자연어 생성에 특화된 모델

GPT 모델 소개

  • [자연어 문장 → 분류] 성능이 아주 좋은 디코더인 GPT
  • 덕분에 적은 양의 데이터에서도 높은 분류 성능을 나타냄
  • 다양한 자연어 task에서 SOTA 달성 (BERT가 나오기 전 GPT1)
  • Pre-train 언어 모델의 새 지평을 열었음 → BERT로 발전의 밑거름
  • 하지만 여전히, 지도 학습을 필요로 하며, labeled data가 필수임
  • 특정 task를 위해 fine-tuning된 모델은 task에서 사용 불가능
    • “언어”의 특성 상, 지도 학습의 목적 함수는 비지도 학습의 목적함수와 같다.
      → GPT 개발 연구진들은 fine-tuning이 필요 없다! 라고 주장

  • 엄청 큰 데이터셋을 사용하면 자연어 task를 자연스럽게 학습할 수 있다!

  • 인간은 새로운 task 학습을 위해 수 많은 데이터를 필요로 하지 않는다!

  • Pre-trained model → fine-tuning으로, 한 모델이 하나의 task만 수행 가능한건 바보같은 일이다!

    • 기존 언어모델은 pre-trained된 모델이 있고 데이터셋을 하나씩 넣어가면서 gradient를 업데이트 함으로써 한 가지 task에 fine-tuning하게 됨

    • 하지만 GPT의 연구진들이 제안한 방법은 Few-shot, One-shot, Zero-shot learning 방법

    • 이 각각의 방법들은 gradient 업데이트가 존재하지 않음

    • Zero-shot은 힌트없이 task를 수행함

    • One-shot은 한 가지 예시를 주고 task를 수행함

    • Few-shot은 몇 가지 예시를 주고 task를 수행함

  • GPT-2는 GPT-1의 디코더 구조만 조금 다르게 구성됨

  • 다음 단어 예측 방식에서는 SOTA 성능
  • 기계 독해, 요약, 번역 등의 자연어 task에서는 일반 신경망 수준
    → 하지만! Zero, One, Few-shot learning의 새 지평을 제시!

  • GPT-3는 파라미터 수와 데이터를 대폭 늘려서 학습

  • Modified initialization
  • Pre-normalization, and reversible tokenization
  • Alternating dense and locally banded sparse attention patterns in the layers of the transformer, similar to the Sparse Transformer
  • GPT-3도 트랜스포머 디코더 레이어를 사용
    • 하지만 GPT-2와 같은 디코더 구조는 아니고 약간 변형

  • 뉴스 기사 생성 실험
    • 진짜 뉴스 기사와 동일한 제목, 부제목을 GPT-3에 입력하여 뉴스 기사를 생성하고, 평가자가 진짜 뉴스 기사와 GPT-3가 생성한 뉴스 기사를 구분
    • The articles we selected were not in the models’ training data and the model outputs were fromatted and selected programmatically to prevent human cherry-picking

  • GPT-3로 Zero-shot, One-shot, Few-shot learning 실험
    - 2개의 숫자를 덧셈하는 것에 대해서는 100%에 가까운 정확도를 보임

  • QA task에서 GPT-3의 Few-shot learning을 사용했을 때 다른 모델보다 더 좋은 성능을 보임

GPT의 응용

  • 다음 단어 혹은 masked 단어 예측하는 언어 모델 학습 방식으로 정말 다 해결될까?
  • Weight update가 없다는 것은 모델에 새로운 지식 학습이 없다는 것!
  • 시기에 따라 달라지는 문제에도 대응 불가!
  • 갈수록 모델 사이즈만 키우면 되는 것인가? → 다른 연구 방향 필요
  • 멀티 모달 정보가 필요! → GPT는 글로만 세상을 배움

출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)

Comments