| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- GPT
- seaborn
- AI 경진대회
- 기아
- RNN
- KLUE
- Bert
- mrc
- Self-attention
- Ai
- matplotlib
- N2N
- AI Math
- Bart
- 현대자동차
- 2023 현대차·기아 CTO AI 경진대회
- 딥러닝
- ODQA
- 데이터 구축
- Data Viz
- passage retrieval
- word2vec
- Attention
- nlp
- N21
- Transformer
- Optimization
- dataset
- pyTorch
- 데이터 시각화
- Today
- Total
목록word2vec (3)
쉬엄쉬엄블로그
이 색깔은 주석이라 무시하셔도 됩니다. 한국어 언어 모델 학습 및 다중 과제 튜닝 인공지능과 자연어처리 자연어처리 소개 자연어처리의 응용분야 컴퓨터는 자연어(텍스트)를 이해할 수 있는 능력이 없기 때문에 컴퓨터에서 정보 처리가 이루어지려면 반드시 수학적인 형태(숫자)로 변경되어야 함 주제 자연어를 컴퓨터가 이해할 수 있게 수학적으로 어떻게 이쁘게 인코딩할 수 있는지를 살펴본다! 인코딩이 이쁘게 되면? 디코딩을 통해 무엇이든 할 수 있다! 자연어 단어 임베딩 특징 추출과 분류 ‘분류’를 위해선 데이터를 수학적으로 표현 먼저, 분류 대상의 특징(Feature)을 파악 (Feature Extraction) 분류 대상의 특징(Feature)을 기준으로, 분류 대상을 그래프 위에 표현 가능 분류 대상들의 경계를 ..
이 색깔은 주석이라 무시하셔도 됩니다. Tokenization Tokenization What is Tokenization? 신경망의 경우 입력은 항상 ‘숫자’로 입력된다. 사람의 언어를 ‘숫자’로 바꾸려면 크게 2가지 문제를 풀어야 한다. 어떤 단위로 쪼갤 것인가? 어떤 숫자로 바꿀 것인가? Text를 숫자로 변환하려는 시도 Bag of Words 단어가 나타난 횟수를 세어 text를 숫자로 변환 벡터의 차원수는 어휘 개수가 됨 TF-IDF (Term Frequency-Inverse Document Frequency) 단어의 빈도와 역 문서 빈도를 사용하여 DTM내의 각 단어들마다 중요한 정도를 가중치 변환 Word2Vec 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화 How ..
이 색깔은 주석이라 무시하셔도 됩니다. Word Embedding : Word2Vec, GloVe What is Word Embedding? Word Embedding이란 자연어가 단어들을 정보의 기본 단위로 하는 단어들의 시퀀스라고 볼 때 각 단어들을 어떤 특정한 차원으로 이루어진 공간 상의 한 점 혹은 그 점의 좌표를 나타내는 벡터로 변환해주는 기법 Express a word as a vector 단어를 벡터로 표현 ‘cat’ and ‘kitty’ are similar words, so they have similar vector representations → short distance 고양이와 새끼고양이는 유사한 단어들, 그래서 두 단어는 유사한 벡터 표현을 가짐 → 가까운 거리로 표현 ‘hamb..