본문 바로가기
728x90
반응형

스터디/인공지능, 딥러닝, 머신러닝56

Double Descent: new approach of bias-variance trade-off Double Descent: Modern approach of bias-variance trade-offclassic ML의 관점에서, bias-variance trade-off는 model complexity와 관련있다.이전 포스트를 참고해도 좋다.https://trivia-starage.tistory.com/238 Overfitting을 막는 방법들 (regularization, cross-validation, early stopping)Overfitting and Regularization ※ The blog post is based on lecture materials from Xavier Bresson, a professor at the National University of Singapore.. 2024. 3. 3.
Overfitting을 막는 방법들 (regularization, cross-validation, early stopping) Overfitting and Regularization※ The blog post is based on lecture materials from Xavier Bresson, a professor at the National University of Singapore. The lecture materials can be found on the professor's LinkedIn. You can also found it at [1]. Under-fitting and over-fittingUnderfittinglearner가 충분한 표현력을 가지지 못함.training set에서 error를 생성.training/testing error 모두 높다.방지 방법: learner의 expressivity(또는 c.. 2024. 3. 2.
Gradients of Neural Networks Computing Neural Networks GradientsVectorized Gradients함수 $f$가 $f: \mathbb{R}^n \to \mathbb{R}^m$ 즉 길이가 $n$인 벡터를 길이가 $m$인 벡터로 매핑할 때 Jacobian은 다음과 같이 행렬의 형태로 표현할 수 있다.즉, Jacobian matrix의 $(i,j)$는 $\left( \frac{\partial f}{\partial x} \right)_{ij}=\frac{\partial f_i}{\partial x_j}$ 이다. Jacobian matrix를 사용할 때의 이점은, chain rule을 이용할 때 단순히 Jacobian의 곱하기로 표현할 수 있다는 것이다. 예를 들어, $f(x)=[f_1(x), f_2(x)]$이고.. 2023. 11. 27.
[Bayesian] Evidence lower bound (ELBO) and EM-algorithm Evidence lower bound (ELBO)파라미터가 $\theta$이고 latent variable이 $z$인 확률모델을 생각해보자. $z$를 적분하여 marginal을 구할 수 있다.\[ p(x; \theta) = \int p(x, z; \theta) dz \] non-Bayesian modeling에서는 log-likelihood를 최대로 만드는 $\theta^*$를 찾는데 관심을 갖는다. 즉\begin{align} \theta^* &= \underset{\theta}{\mathrm{argmax}} \log p(x;\theta) \\ &= \underset{\theta}{\mathrm{argmax}} \log \int p(x, z; \theta) dz \end{align} 그러나 만일 적분이 .. 2023. 11. 11.
[CS224w, 2018] Network Representation Directed & Undirected 위 그림의 왼쪽 빨간색 그래프는 무방향 그래프(undirected graph)이다. link는 symmetric, reciprocal 하다는 특징이 있다. 예를 들어 친구관계(서로 친구관계), 또는 협업(collaboration, 방향성이 없음)을 표현할 때 사용될 수 있다. 오른쪽 그림의 녹색 그래프는 방향 그래프(directed graph)이다. link는 종종 arc라고도 불린다. phone call이다 SNS에서의 follow 등을 표현할 수 있다. Node degrees (노드 차수)일반적으로 노드의 이웃하는 edge의 개수를 의미하고, $k$를 이용하여 표기한다.Undirected Graph노드 $i$의 이웃하는 edge의 개수를 $k_i$라 한다. 아래.. 2023. 10. 17.
[Bayesian] Linear Modeling Settings (선형 회귀 모델링, MLE, Least Square, MAP, Ridge) Notation우리가 관측한(얻은) $n$개의 데이터셋을 $\mathcal{D}$이라 하자. 각 데이터 표본(인스턴스)는 $d$차원 변수이고, label은 상수(스칼라) 이다. 이를 수식으로 표현하면 다음과 같다.\[ \mathcal{D} = (X, y), \quad X=[x_1, \dots, x_n]^\top \in \mathbb{R}^{n \times d}, \quad y=[y_1, \dots, y_n]^\top \in \mathbb{R}^{n} \]$X$의 $i$번째 표본은 $X_i = (x_i, y_i)$이고 $x_i$는 $d$차원 벡터이고 $y$는 스칼라이다. ($x_i \in \mathbb{R}^d$)그리고 더 basis function(기저 함수, 혹은 feature map으로도 불린다)을 .. 2023. 9. 17.
728x90
반응형