Notice
Recent Posts
Recent Comments
Link
250x250
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- matplotlib
- RNN
- N21
- GPT
- Optimization
- ODQA
- Attention
- 현대자동차
- 딥러닝
- Data Viz
- seaborn
- pyTorch
- 데이터 구축
- nlp
- 데이터 시각화
- Ai
- 기아
- AI Math
- passage retrieval
- dataset
- AI 경진대회
- Self-attention
- mrc
- Bart
- 2023 현대차·기아 CTO AI 경진대회
- word2vec
- Bert
- KLUE
- N2N
- Transformer
Archives
- Today
- Total
쉬엄쉬엄블로그
(NLP 기초대회) N2N - Token Classification 실습 본문
728x90
이 색깔은 주석이라 무시하셔도 됩니다.
N2N (Token Classification) 실습
데이터셋
KLUE-DP 데이터셋

- 입력 : 어절 단위 한국어 텍스트
- 출력 : DP 태그
- 개수 : 입력과 출력이 동일
- 이를 위해, BIO 태그를 붙이는 전처리가 필요

모델 설명
사용 모델
-

- pre-trained BERT 아키텍처 활용
- bert-base-multilingual-cased Config 활용
- bert-base-multilingual-cased Tokenizer 활용
토크나이징 방법
- Huggingface AutoTokenizer
- Vocab 정보
- 크기 : 50265
- 문장 최대 길이 : 512
- 샘플 데이터
- 입력 : 아이는 예정보다 일찍 태어나
- 출력 : [B-NP_SBJ, I-NP_SBJ, I-NP_SBJ, O, B-NP_AJT, I-NP_AJT, I-NP_AJT, I-NP_AJT, O, B-AP, I-AP, O, B-VP, I-VP, I-VP]
- 토큰화 결과
- 입력 : [101, 9519, 9638, 9043, 100, 9576, 9670, 9356, 9056, 100, 9641, 9728, 100, 9854, 9546, 8982, 102, 0, 0, …]
- 출력 : [0, 33, 5, 5, 32, 52, 55, 55, 55, 32, 42, 44, 32, 65, 66, 66, 0, 0, …]
- 101 = [CLS], 0 = [PAD], 102 = [SEP]
- Vocab 정보
Loss function
CrossEntropyLoss 예시

평가
- Conlleval-2000을 활용한 sequence labeling 평가
Conlleval-2000

- Perl 스크립트
- Python으로 변환된 라이브러리 활용 예정
- F1-score를 제공
- 각 라벨 별 F1-score
- Micro F1-score
- Weighted Macro F1-score
출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)
'부스트캠프 AI Tech 4기' 카테고리의 다른 글
| (NLP 기초대회) N2M - Encoder-Decoder Approach 실습 (0) | 2023.07.28 |
|---|---|
| (NLP 기초대회) N2M - Encoder-Decoder Approach (0) | 2023.07.27 |
| (NLP 기초대회) N2N - Token Classification (0) | 2023.07.25 |
| (NLP 기초대회) N21 - Sentence Classification 실습 (1) | 2023.07.24 |
| (NLP 기초대회) N21 - Sentence Classification (0) | 2023.07.21 |
Comments