| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- AI 경진대회
- passage retrieval
- Data Viz
- RNN
- N2N
- word2vec
- GPT
- 현대자동차
- Ai
- 2023 현대차·기아 CTO AI 경진대회
- Attention
- matplotlib
- 딥러닝
- Transformer
- AI Math
- Self-attention
- seaborn
- pyTorch
- Optimization
- Bart
- 데이터 구축
- mrc
- Bert
- dataset
- 데이터 시각화
- N21
- 기아
- ODQA
- nlp
- KLUE
- Today
- Total
목록dataset (3)
쉬엄쉬엄블로그
이 색깔은 주석이라 무시하셔도 됩니다. NL Data 관리 및 처리 도구 소개 - Pandas Pandas Pandas About Pandas 대용량 데이터 처리 가능 Pandas를 이용하면 GB 단위 이상의 대용량 처리 테이블과 시계열을 조작하기 위한 데이터 구조와 연산을 제공 데이터를 합치고 관계 연산을 수행하는 기능들, 누락 데이터 등을 처리할 수 있는 기능들 외 다양한 기능들을 제공 Excel-like data form Pandas는 기본적으로 “엑셀”과 비슷한 형태의 자료구조들을 지원 Pandas에서는 “Series”와 “DataFrame”이라는 자료구조를 제공함으로써 데이터 분석을 도와준다. Series & DataFrame Series : 1차원 배열의 형태 인덱스에 의해 데이터가 저장되고 ..
이 색깔은 주석이라 무시하셔도 됩니다. PyToch의 DataLoader DataLoader의 기본 구성 요소 dataset (★★★) DataLoader에는 앞서 생성한 dataset 인스턴스가 들어감 batch_size (★★★) 인자가 나타내고 있는 뜻 그대로 배치 사이즈를 의미 shuffle (★★★) 데이터를 DataLoader에서 섞어서 사용하겠는지를 설정할 수 있음 sample / batch_sample (★) sampler는 index를 컨트롤하는 방법 데이터의 index를 원하는 방식대로 조정 index를 컨트롤하기 때문에 설정하고 싶다면 shuffle 파라미터는 False(기본값)이어야 함 불균형 데이터셋의 경우, 클래스의 비율에 맞게끔 데이터를 제공해야할 필요가 있음 이 때 사용하는 ..
모델에 데이터를 먹이는 방법 _getitem_ 하나의 데이터를 불러올 때 어떻게 반환을 해주는지에 대해서 정의해줌 transforms 데이터 전처리를 정의 Dataset 클래스 데이터 입력 형태를 정의하는 클래스 데이터를 입력하는 방식의 표준화 Image, Text, Audio 등에 따라 다른 입력 정의 Dataset 클래스의 스타일 2가지 Map-style index가 존재하여 data[index]로 데이터를 참조할 수 있음 _getitem__과 _len 선언 필요 import torch from torch.utils.data import Dataset, DataLoader class CustomDataset(Dataset): # 초기 데이터 생성 방법 지정 def __init__(self, text,..