Notice
Recent Posts
Recent Comments
Link
250x250
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- nlp
- KLUE
- N21
- N2N
- 데이터 구축
- RNN
- Transformer
- pyTorch
- 기아
- GPT
- Optimization
- seaborn
- AI 경진대회
- dataset
- word2vec
- passage retrieval
- 현대자동차
- mrc
- Attention
- Data Viz
- 딥러닝
- Self-attention
- 데이터 시각화
- AI Math
- matplotlib
- 2023 현대차·기아 CTO AI 경진대회
- Bert
- ODQA
- Ai
- Bart
Archives
- Today
- Total
쉬엄쉬엄블로그
(KLUE) GPT 언어 모델 본문
728x90
이 색깔은 주석이라 무시하셔도 됩니다.
한국어 언어 모델 학습 및 다중 과제 튜닝
GPT 언어 모델
- BERT 모델은 자연어에 대한 임베딩 모델이라 할 수 있고 GPT는 자연어 생성에 특화된 모델
GPT 모델 소개



- [자연어 문장 → 분류] 성능이 아주 좋은 디코더인 GPT
- 덕분에 적은 양의 데이터에서도 높은 분류 성능을 나타냄
- 다양한 자연어 task에서 SOTA 달성 (BERT가 나오기 전 GPT1)
- Pre-train 언어 모델의 새 지평을 열었음 → BERT로 발전의 밑거름
- 하지만 여전히, 지도 학습을 필요로 하며, labeled data가 필수임
- 특정 task를 위해 fine-tuning된 모델은 task에서 사용 불가능
- “언어”의 특성 상, 지도 학습의 목적 함수는 비지도 학습의 목적함수와 같다.
→ GPT 개발 연구진들은 fine-tuning이 필요 없다! 라고 주장
- “언어”의 특성 상, 지도 학습의 목적 함수는 비지도 학습의 목적함수와 같다.


- 엄청 큰 데이터셋을 사용하면 자연어 task를 자연스럽게 학습할 수 있다!

인간은 새로운 task 학습을 위해 수 많은 데이터를 필요로 하지 않는다!
Pre-trained model → fine-tuning으로, 한 모델이 하나의 task만 수행 가능한건 바보같은 일이다!
기존 언어모델은 pre-trained된 모델이 있고 데이터셋을 하나씩 넣어가면서 gradient를 업데이트 함으로써 한 가지 task에 fine-tuning하게 됨
하지만 GPT의 연구진들이 제안한 방법은 Few-shot, One-shot, Zero-shot learning 방법

이 각각의 방법들은 gradient 업데이트가 존재하지 않음
Zero-shot은 힌트없이 task를 수행함
One-shot은 한 가지 예시를 주고 task를 수행함
Few-shot은 몇 가지 예시를 주고 task를 수행함


- GPT-2는 GPT-1의 디코더 구조만 조금 다르게 구성됨

- 다음 단어 예측 방식에서는 SOTA 성능
- 기계 독해, 요약, 번역 등의 자연어 task에서는 일반 신경망 수준
→ 하지만! Zero, One, Few-shot learning의 새 지평을 제시!

- GPT-3는 파라미터 수와 데이터를 대폭 늘려서 학습

- Modified initialization
- Pre-normalization, and reversible tokenization
- Alternating dense and locally banded sparse attention patterns in the layers of the transformer, similar to the Sparse Transformer
- GPT-3도 트랜스포머 디코더 레이어를 사용
- 하지만 GPT-2와 같은 디코더 구조는 아니고 약간 변형

- 뉴스 기사 생성 실험
- 진짜 뉴스 기사와 동일한 제목, 부제목을 GPT-3에 입력하여 뉴스 기사를 생성하고, 평가자가 진짜 뉴스 기사와 GPT-3가 생성한 뉴스 기사를 구분
- The articles we selected were not in the models’ training data and the model outputs were fromatted and selected programmatically to prevent human cherry-picking


- GPT-3로 Zero-shot, One-shot, Few-shot learning 실험
- 2개의 숫자를 덧셈하는 것에 대해서는 100%에 가까운 정확도를 보임

- QA task에서 GPT-3의 Few-shot learning을 사용했을 때 다른 모델보다 더 좋은 성능을 보임
GPT의 응용




- 다음 단어 혹은 masked 단어 예측하는 언어 모델 학습 방식으로 정말 다 해결될까?
- Weight update가 없다는 것은 모델에 새로운 지식 학습이 없다는 것!
- 시기에 따라 달라지는 문제에도 대응 불가!
- 갈수록 모델 사이즈만 키우면 되는 것인가? → 다른 연구 방향 필요
- 멀티 모달 정보가 필요! → GPT는 글로만 세상을 배움
출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)
'부스트캠프 AI Tech 4기' 카테고리의 다른 글
| (데이터 제작) 데이터 제작의 A to Z (0) | 2023.08.24 |
|---|---|
| (KLUE) 자연어처리 연구 (0) | 2023.08.23 |
| (KLUE) BERT 언어모델 기반의 두 문장 관계 분류 (0) | 2023.08.18 |
| (KLUE) BERT 언어모델 기반의 단일 문장 분류 (0) | 2023.08.17 |
| (KLUE) BERT Pre-Training (0) | 2023.08.16 |
Comments