'BPE' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

250x250

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록BPE (1)

쉬엄쉬엄블로그

(NLP 기초대회) Tokenization

이 색깔은 주석이라 무시하셔도 됩니다. Tokenization Tokenization What is Tokenization? 신경망의 경우 입력은 항상 ‘숫자’로 입력된다. 사람의 언어를 ‘숫자’로 바꾸려면 크게 2가지 문제를 풀어야 한다. 어떤 단위로 쪼갤 것인가? 어떤 숫자로 바꿀 것인가? Text를 숫자로 변환하려는 시도 Bag of Words 단어가 나타난 횟수를 세어 text를 숫자로 변환 벡터의 차원수는 어휘 개수가 됨 TF-IDF (Term Frequency-Inverse Document Frequency) 단어의 빈도와 역 문서 빈도를 사용하여 DTM내의 각 단어들마다 중요한 정도를 가중치 변환 Word2Vec 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화 How ..

부스트캠프 AI Tech 4기 2023. 7. 18. 11:49

이전 Prev 1 Next 다음

목록BPE (1)

쉬엄쉬엄블로그

티스토리툴바