| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- passage retrieval
- Transformer
- word2vec
- nlp
- Self-attention
- mrc
- Ai
- 기아
- KLUE
- 현대자동차
- AI 경진대회
- Optimization
- 데이터 구축
- ODQA
- pyTorch
- seaborn
- 데이터 시각화
- N21
- N2N
- RNN
- AI Math
- Bart
- dataset
- Data Viz
- Attention
- Bert
- 딥러닝
- matplotlib
- GPT
- 2023 현대차·기아 CTO AI 경진대회
- Today
- Total
목록nlp (25)
쉬엄쉬엄블로그
이 색깔은 주석이라 무시하셔도 됩니다. 데이터 제작의 A to Z 강의 목적 인공지능 서비스 개발을 위한 데이터 제작 과정을 이해한다. 자연어처리 과제(Task)별 데이터의 특성을 탐구한다. 실습을 통해 실제 데이터 구축 과정을 체험한다. 강의 목차 데이터 제작의 A to Z 자연어처리 데이터 기초 자연어처리 데이터 소개 1 자연어처리 데이터 소개 2 원시 데이터의 수집과 가공 데이터 구축 작업 설계 데이터 구축 가이드라인 작성 기초 관계 추출 과제의 이해 관계 추출 관련 논문 읽기 관계 추출 데이터 구축 실습 데이터 제작의 P;ㅠ(피땀눈물) 사람이 보기에도 'P;ㅠ'를 피땀눈물 이라고 읽기가 힘든데 이것을 자연어처리 모델이 이해하고 처리할 수 있도록 도와줘야 하는 것이 자연어처리이기 때문..
이 색깔은 주석이라 무시하셔도 됩니다. 한국어 언어 모델 학습 및 다중 과제 튜닝 인공지능과 자연어처리 자연어처리 소개 자연어처리의 응용분야 컴퓨터는 자연어(텍스트)를 이해할 수 있는 능력이 없기 때문에 컴퓨터에서 정보 처리가 이루어지려면 반드시 수학적인 형태(숫자)로 변경되어야 함 주제 자연어를 컴퓨터가 이해할 수 있게 수학적으로 어떻게 이쁘게 인코딩할 수 있는지를 살펴본다! 인코딩이 이쁘게 되면? 디코딩을 통해 무엇이든 할 수 있다! 자연어 단어 임베딩 특징 추출과 분류 ‘분류’를 위해선 데이터를 수학적으로 표현 먼저, 분류 대상의 특징(Feature)을 파악 (Feature Extraction) 분류 대상의 특징(Feature)을 기준으로, 분류 대상을 그래프 위에 표현 가능 분류 대상들의 경계를 ..
이 색깔은 주석이라 무시하셔도 됩니다. Prediction Service 개발 Fastapi RestAPI 백엔드 서버 설정 Python 기반 웹 프레임워크 웹 개발을 도와주는 도구 사용자(웹, 모바일 등)의 요청을 수행함 DB와 연결하여 데이터 작업을 수행함 속도와 안정성이 중요함 FastAPI가 다른 프레임워크에 비해서 간단한 머신러닝 데모 시스템을 만들 때 유리함 FastAPI : 빠르고 배우기 쉽다 코드 설명 전체 코드 from fastapi import FastAPI import uvicorn from starlette.responses import JSONResponse from temp.date import Model app = FastAPI() @app.get("/translation") ..
이 색깔은 주석이라 무시하셔도 됩니다. N2M 실습 문제 날짜 정규화 데이터셋 입력 : 다양한 형태의 날짜 표기 출력 : YYYY-MM-DD 형식의 날짜 표기 개수 : 자체적으로 생성 가능 모델 입출력 디자인 Huggingface AutoTokenizer Vocab 정보(facebook/bart-base 모델의 vocab) 크기 : 50265 문장 최대 길이 : 16 샘플 데이터 입력 데이터 : 18/01/1976 토큰화 결과 : [0, 1366, 73, 2663, 73, 44835, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1] 사용 모델 Huggingface AutoModelForSeq2SeqLM Model 선학습되지 않은 BART 아키텍처 활용 facebook/bart-base Config,..
이 색깔은 주석이라 무시하셔도 됩니다. N2M (Encoder-Decoder Approach) 이론 N2M과 Encoder/Decoder N2M 태스크와 Encoder-Decoder 모델의 역할 N2M N2M 태스크 N개의 데이터를 입력으로 받아 M개의 데이터를 출력하는 태스크 Encdoer + Decoder 모델이 주로 활용됨 Encoder 입력 정보를 잘 인코딩(숫자화)하기 위해 활용함 긴 Sequence 정보를 잘 추출하는게 중요함 Decoder 인코더에서 인코딩된 정보를 활용하여 출력 Sequence를 순차적으로 생성함 인코딩된 정보와 앞서 생성된 토큰을 함께 활용하여 다음 토큰을 생성함 N2M 태스크 예 | 번역 문장을 입력받아 다른 언어로 번역하는 문제 N2M 태스크 예 | 품사태깅 입력된 문..
이 색깔은 주석이라 무시하셔도 됩니다. N2N (Token Classification) 실습 데이터셋 KLUE-DP 데이터셋 입력 : 어절 단위 한국어 텍스트 출력 : DP 태그 개수 : 입력과 출력이 동일 이를 위해, BIO 태그를 붙이는 전처리가 필요 모델 설명 사용 모델 BERT model pre-trained BERT 아키텍처 활용 bert-base-multilingual-cased Config 활용 bert-base-multilingual-cased Tokenizer 활용 토크나이징 방법 Huggingface AutoTokenizer Vocab 정보 크기 : 50265 문장 최대 길이 : 512 샘플 데이터 입력 : 아이는 예정보다 일찍 태어나 출력 : [B-NP_SBJ, I-NP_SBJ, I-..