Notice
Recent Posts
Recent Comments
Link
250x250
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- AI 경진대회
- matplotlib
- N2N
- 데이터 구축
- Bert
- passage retrieval
- pyTorch
- dataset
- GPT
- nlp
- Bart
- mrc
- RNN
- Attention
- ODQA
- Self-attention
- 딥러닝
- Optimization
- KLUE
- 기아
- 2023 현대차·기아 CTO AI 경진대회
- seaborn
- Transformer
- AI Math
- 현대자동차
- Ai
- Data Viz
- 데이터 시각화
- word2vec
- N21
Archives
- Today
- Total
목록BPE (1)
쉬엄쉬엄블로그
이 색깔은 주석이라 무시하셔도 됩니다. Tokenization Tokenization What is Tokenization? 신경망의 경우 입력은 항상 ‘숫자’로 입력된다. 사람의 언어를 ‘숫자’로 바꾸려면 크게 2가지 문제를 풀어야 한다. 어떤 단위로 쪼갤 것인가? 어떤 숫자로 바꿀 것인가? Text를 숫자로 변환하려는 시도 Bag of Words 단어가 나타난 횟수를 세어 text를 숫자로 변환 벡터의 차원수는 어휘 개수가 됨 TF-IDF (Term Frequency-Inverse Document Frequency) 단어의 빈도와 역 문서 빈도를 사용하여 DTM내의 각 단어들마다 중요한 정도를 가중치 변환 Word2Vec 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화 How ..
부스트캠프 AI Tech 4기
2023. 7. 18. 11:49