일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Data Viz
- 데이터 구축
- Optimization
- Self-attention
- Bart
- dataset
- passage retrieval
- nlp
- word2vec
- Attention
- ODQA
- AI 경진대회
- N2N
- GPT
- RNN
- AI Math
- Ai
- KLUE
- 기아
- 데이터 시각화
- 2023 현대차·기아 CTO AI 경진대회
- Transformer
- seaborn
- 딥러닝
- pyTorch
- mrc
- N21
- Bert
- 현대자동차
- matplotlib
- Today
- Total
목록AI Math (7)
쉬엄쉬엄블로그

이 색깔은 주석이라 무시하셔도 됩니다. Convolution 연산 이해하기 Convolution 연산은 각 뉴런들이 선형모델과 활성함수로 모두 연결된(fully connected) 구조의 다층신경망(MLP)과 달리 커널(kernel)을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조이다. 모든 $i$에 대해 적용되는 커널은 $V$로 같고 커널의 사이즈만큼 $\mathbf x$상에서 이동하면서 적용한다. 컨볼루션 연산도 선형변환의 한 종류이다. Convolution 연산의 수학적인 의미는 신호(signal)를 커널을 이용해 국소적으로 증폭 또는 감소시켜서 정보를 추출 또는 필터링하는 것이다. continuous $[f*g](x) = \int_{\mathbb R^d} f(z)g(x-z)dz ..

이 색깔은 주석이라 무시하셔도 됩니다. 조건부 확률이란? $P(A\cap B) = P(B)P(A|B)$ 조건부확률 $P(A|B)$는 사건 $B$가 일어난 상황에서 사건 $A$가 발생할 확률을 의미한다 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다. $P(A\cap B)=P(B)P(A|B)$ $A$라는 새로운 정보가 주어졌을 때 $P(B)$로부터 $P(B|A)$를 계산하는 방법을 제공한다. A가 주어졌을 때 B가 일어날 확률을 계산할 때는 A와 B가 동시에 일어날 확률을 A가 일어날 확률로 나눠줌 빨간색으로 표시한 부분만 집중해서 보기 베이즈 정리 : 예제 $\mathcal D$ : 새로 관찰하는 데이터 $\theta$ : 모델에서 계산하고 싶은 파라미터, 모수, 가설 사후확률(pos..

이 색깔은 주석이라 무시하셔도 됩니다. 모수란? 통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference)하는 것이 목표이며, 기계학습과 통계학이 공통적으로 추구하는 목표이다. 그러나 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아낸다는 것은 불가능하므로, 근사적으로 확률분포를 추정한다. 예측모형의 목적은 분포를 정확하게 맞추는 것보다는 데이터와 추정 방법의 불확실성을 고려해서 위험을 최소화하는 것이다. 데이터가 특정 확률분포를 따른다고 선험적으로(a priori) 가정한 후 그 분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적(parametric) 방법론이라 한다. 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모..

이 색깔은 주석이라 무시하셔도 됩니다. 딥러닝에서 확률론이 왜 필요한가? 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있다. 기계학습에서 사용되는 손실함수(loss function)들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도하게 된다. 예측이 틀릴 위험(risk)을 최소화하도록 데이터를 학습하는 원리는 통계적 기계학습의 기본 원리 회귀 분석에서 손실함수로 사용되는 $L_2$-노름은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도한다. 분류 문제에서 사용되는 교차엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도한다. 분산 및 불확실성을 최소화하기 위해서는 측정하는 방법을 알아야 한다. 두 대상을 측정하는 방법을 통계학에서 제공하기..

이 색깔은 주석이라 무시하셔도 됩니다. 신경망을 수식으로 분해하기 비선형모델인 신경망(neural network)을 배워보자. 각 행벡터 $O_i$는 데이터 $\mathbf x_i$와 가중치 행렬 $W$ 사이의 행렬곱과 절편 $b$ 벡터의 합으로 표현된다고 가정하면 $O = XW + b$ 로 표현할 수 있다. 데이터를 모아놓은 행렬 $X$를 다른 벡터 공간으로 보내주는 가중치 행렬 $W$ 소프트맥스 함수 모델의 출력을 확률로 해석할 수 있게 변환해주는 연산이다. softmax($o$) = $(\frac{exp(o_1)}{\sum^p_{k=1} exp(o_k)},...,\frac{exp(o_p)}{\sum^p_{k=1} exp(o_k)}$ 출력 벡터 $o$에 softmax 합수를 합성하면 확률벡터가 되므로..

이 색깔은 주석이라 무시하셔도 됩니다. 미분이란? 미분(differentiation)은 변수의 움직임에 따른 함숫값의 변화를 측정하기 위한 도구로 최적화에서 제일 많이 사용하는 기법 $f'(x)=\lim_{h\rightarrow 0}\frac{f(x+h)-f(x)}{h}$ $f(x)=x^2+2x+3$, $\frac{f(x+h)-f(x)}{h}=2x+2+h$ => $f'(x)=2x+2$ 미분 계산 코드 예시 import sympy as sym from sympy.abc import x sym.diff(sym.poly(x**2 + 2*x +3), x) 미분은 함수 $f$의 주어진 점($x, f(x)$)에서의 접선의 기울기를 구한다. 한 점에서 접선의 기울기를 알면 어느 방향으로 점을 움직여야 함숫값이 증가 ..