일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Optimization
- Transformer
- Data Viz
- nlp
- Bart
- matplotlib
- AI 경진대회
- word2vec
- Ai
- seaborn
- Self-attention
- GPT
- passage retrieval
- dataset
- 딥러닝
- RNN
- N2N
- 데이터 구축
- 현대자동차
- Bert
- mrc
- 2023 현대차·기아 CTO AI 경진대회
- 기아
- ODQA
- pyTorch
- Attention
- N21
- AI Math
- 데이터 시각화
- KLUE
- Today
- Total
목록N2N (3)
쉬엄쉬엄블로그

이 색깔은 주석이라 무시하셔도 됩니다. N2N (Token Classification) 실습 데이터셋 KLUE-DP 데이터셋 입력 : 어절 단위 한국어 텍스트 출력 : DP 태그 개수 : 입력과 출력이 동일 이를 위해, BIO 태그를 붙이는 전처리가 필요 모델 설명 사용 모델 BERT model pre-trained BERT 아키텍처 활용 bert-base-multilingual-cased Config 활용 bert-base-multilingual-cased Tokenizer 활용 토크나이징 방법 Huggingface AutoTokenizer Vocab 정보 크기 : 50265 문장 최대 길이 : 512 샘플 데이터 입력 : 아이는 예정보다 일찍 태어나 출력 : [B-NP_SBJ, I-NP_SBJ, I-..

이 색깔은 주석이라 무시하셔도 됩니다. N2N (Token Classification) 이론 N2N 문제 정의 Sequence Labeling 문장 전체를 살피고, 특정 part의 의미나 역할을 분석할 때 사용 배경 설명 N21, N2M으로도 풀 수 있는 문제 아닌가? 하나의 토큰마다 여러 번 걸쳐서 예측한다면 N21도 가능은 하지만 낭비가 심할 것 N2M 문제는 출력 개수를 정할 수 없기 때문에(출력 개수가 보장되지 않기 때문에) N개의 딱 맞는 출력을 생성하기에 적합하지 않음 트랜스포머를 활용할 때는 구조 자체가 N개 입력에 대응하는 N개 출력이 나오도록 되어있기 때문에 쉽게 N2N 문제가 모델링 됨 N2N : Encoder 모델을 활용한 sequence labeling task Text에 대해 동일..

이 색깔은 주석이라 무시하셔도 됩니다. Neural Network based NLP -Overview- NLP Tasks NLP in Real Life Natural Language Processing with Disaster Tweets “Three people died from the heat wave so far” - 1 : 재난 “on the outside you’re ablaze and alive but you’re dead inside” - 0 : 재난 아님 어떤 Tweet이 진짜 재난인지 아닌지 분류 Tweet이 입력되면 0과 1이 출력하는 문제로 진짜 재난일 경우 1이 출력 LitCoin Natural Language Processing (NLP) Challenge 텍스트가 입력되면 생물의..