| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- Data Viz
- AI Math
- KLUE
- nlp
- 기아
- 데이터 구축
- N2N
- ODQA
- passage retrieval
- matplotlib
- 딥러닝
- 2023 현대차·기아 CTO AI 경진대회
- Attention
- AI 경진대회
- mrc
- N21
- word2vec
- GPT
- dataset
- Optimization
- RNN
- Bart
- 데이터 시각화
- Ai
- 현대자동차
- pyTorch
- seaborn
- Bert
- Transformer
- Self-attention
- Today
- Total
목록Token Classification (2)
쉬엄쉬엄블로그
이 색깔은 주석이라 무시하셔도 됩니다. N2N (Token Classification) 실습 데이터셋 KLUE-DP 데이터셋 입력 : 어절 단위 한국어 텍스트 출력 : DP 태그 개수 : 입력과 출력이 동일 이를 위해, BIO 태그를 붙이는 전처리가 필요 모델 설명 사용 모델 BERT model pre-trained BERT 아키텍처 활용 bert-base-multilingual-cased Config 활용 bert-base-multilingual-cased Tokenizer 활용 토크나이징 방법 Huggingface AutoTokenizer Vocab 정보 크기 : 50265 문장 최대 길이 : 512 샘플 데이터 입력 : 아이는 예정보다 일찍 태어나 출력 : [B-NP_SBJ, I-NP_SBJ, I-..
이 색깔은 주석이라 무시하셔도 됩니다. N2N (Token Classification) 이론 N2N 문제 정의 Sequence Labeling 문장 전체를 살피고, 특정 part의 의미나 역할을 분석할 때 사용 배경 설명 N21, N2M으로도 풀 수 있는 문제 아닌가? 하나의 토큰마다 여러 번 걸쳐서 예측한다면 N21도 가능은 하지만 낭비가 심할 것 N2M 문제는 출력 개수를 정할 수 없기 때문에(출력 개수가 보장되지 않기 때문에) N개의 딱 맞는 출력을 생성하기에 적합하지 않음 트랜스포머를 활용할 때는 구조 자체가 N개 입력에 대응하는 N개 출력이 나오도록 되어있기 때문에 쉽게 N2N 문제가 모델링 됨 N2N : Encoder 모델을 활용한 sequence labeling task Text에 대해 동일..