부스트캠프 AI Tech 4기
(NLP 기초대회) N2M - Encoder-Decoder Approach 실습
쉬엄쉬엄블로그
2023. 7. 28. 13:51
728x90
이 색깔은 주석이라 무시하셔도 됩니다.
N2M 실습
문제
날짜 정규화 데이터셋
- 입력 : 다양한 형태의 날짜 표기
- 출력 : YYYY-MM-DD 형식의 날짜 표기
- 개수 : 자체적으로 생성 가능
모델
입출력 디자인
Huggingface AutoTokenizer
Vocab 정보(facebook/bart-base 모델의 vocab)
- 크기 : 50265
- 문장 최대 길이 : 16
샘플 데이터
입력 데이터 : 18/01/1976
토큰화 결과 : [0, 1366, 73, 2663, 73, 44835, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1]
사용 모델
Huggingface AutoModelForSeq2SeqLM Model
선학습되지 않은 BART 아키텍처 활용
facebook/bart-base Config, Tokenizer 활용
Loss function
CrossEntropyLoss
딥러닝의 출력 결과를 확률로 변환하여 Loss를 계산함
Softmax는 Logits을 확률로 변환하며, 이 때 확률의 합은 1이 됨
하이퍼파라미터 튜닝
하이퍼파라미터 튜닝
하이퍼파라미터의 조합은 무수히 많음
성능에 중요한 역할을 함
→ 사람 대신 기계가 찾아보자
하이퍼파라미터 튜닝 도구
WandB (Weights & Biases)
머신러닝 & 딥러닝 실험 결과 추적 툴
- 결과 시각화 Dashboard 제공
- Dataset, Model version 관리
- 하이퍼파라미터 튜닝
- 결과 정리 및 공유
WandB Sweep(하이퍼파라미터 튜닝) 예시
WandB 연결
회원가입
프로젝트 생성
설치 및 로그인
logger 설정
WandB sweep
Sweep config 작성
- 튜닝 방법 설정
- 평가지표 설정
- 하이퍼파라미터 및 범위 선택
데이터셋, 모델 작성 및 Sweep 실행
- 사용할 데이터셋과 모델 작성
- Sweep 실행
출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)