본문 바로가기

Notice

Recent Posts

Recent Comments

Link

250x250

Tags more

Archives

Today

Total

관리 메뉴

쉬엄쉬엄블로그

(KLUE) GPT 언어 모델 본문

부스트캠프 AI Tech 4기

(KLUE) GPT 언어 모델

쉬엄쉬엄블로그 2023. 8. 22. 13:36

728x90

이 색깔은 주석이라 무시하셔도 됩니다.

한국어 언어 모델 학습 및 다중 과제 튜닝

GPT 언어 모델

BERT 모델은 자연어에 대한 임베딩 모델이라 할 수 있고 GPT는 자연어 생성에 특화된 모델

GPT 모델 소개

[자연어 문장 → 분류] 성능이 아주 좋은 디코더인 GPT
덕분에 적은 양의 데이터에서도 높은 분류 성능을 나타냄
다양한 자연어 task에서 SOTA 달성 (BERT가 나오기 전 GPT1)
Pre-train 언어 모델의 새 지평을 열었음 → BERT로 발전의 밑거름
하지만 여전히, 지도 학습을 필요로 하며, labeled data가 필수임
특정 task를 위해 fine-tuning된 모델은 task에서 사용 불가능
- “언어”의 특성 상, 지도 학습의 목적 함수는 비지도 학습의 목적함수와 같다.
  → GPT 개발 연구진들은 fine-tuning이 필요 없다! 라고 주장

엄청 큰 데이터셋을 사용하면 자연어 task를 자연스럽게 학습할 수 있다!

인간은 새로운 task 학습을 위해 수 많은 데이터를 필요로 하지 않는다!
Pre-trained model → fine-tuning으로, 한 모델이 하나의 task만 수행 가능한건 바보같은 일이다!
- 기존 언어모델은 pre-trained된 모델이 있고 데이터셋을 하나씩 넣어가면서 gradient를 업데이트 함으로써 한 가지 task에 fine-tuning하게 됨
- 하지만 GPT의 연구진들이 제안한 방법은 Few-shot, One-shot, Zero-shot learning 방법
- 이 각각의 방법들은 gradient 업데이트가 존재하지 않음
- Zero-shot은 힌트없이 task를 수행함
- One-shot은 한 가지 예시를 주고 task를 수행함
- Few-shot은 몇 가지 예시를 주고 task를 수행함

GPT-2는 GPT-1의 디코더 구조만 조금 다르게 구성됨

다음 단어 예측 방식에서는 SOTA 성능
기계 독해, 요약, 번역 등의 자연어 task에서는 일반 신경망 수준
→ 하지만! Zero, One, Few-shot learning의 새 지평을 제시!

GPT-3는 파라미터 수와 데이터를 대폭 늘려서 학습

Modified initialization
Pre-normalization, and reversible tokenization
Alternating dense and locally banded sparse attention patterns in the layers of the transformer, similar to the Sparse Transformer
GPT-3도 트랜스포머 디코더 레이어를 사용
- 하지만 GPT-2와 같은 디코더 구조는 아니고 약간 변형

뉴스 기사 생성 실험
- 진짜 뉴스 기사와 동일한 제목, 부제목을 GPT-3에 입력하여 뉴스 기사를 생성하고, 평가자가 진짜 뉴스 기사와 GPT-3가 생성한 뉴스 기사를 구분
- The articles we selected were not in the models’ training data and the model outputs were fromatted and selected programmatically to prevent human cherry-picking

GPT-3로 Zero-shot, One-shot, Few-shot learning 실험
- 2개의 숫자를 덧셈하는 것에 대해서는 100%에 가까운 정확도를 보임

QA task에서 GPT-3의 Few-shot learning을 사용했을 때 다른 모델보다 더 좋은 성능을 보임

GPT의 응용

다음 단어 혹은 masked 단어 예측하는 언어 모델 학습 방식으로 정말 다 해결될까?
Weight update가 없다는 것은 모델에 새로운 지식 학습이 없다는 것!
시기에 따라 달라지는 문제에도 대응 불가!
갈수록 모델 사이즈만 키우면 되는 것인가? → 다른 연구 방향 필요
멀티 모달 정보가 필요! → GPT는 글로만 세상을 배움

출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)

'부스트캠프 AI Tech 4기' 카테고리의 다른 글

(데이터 제작) 데이터 제작의 A to Z (0)	2023.08.24
(KLUE) 자연어처리 연구 (0)	2023.08.23
(KLUE) BERT 언어모델 기반의 두 문장 관계 분류 (0)	2023.08.18
(KLUE) BERT 언어모델 기반의 단일 문장 분류 (0)	2023.08.17
(KLUE) BERT Pre-Training (0)	2023.08.16

'부스트캠프 AI Tech 4기' Related Articles

more

Comments

티스토리툴바