Notation
우리가 관측한(얻은) $n$개의 데이터셋을 $\mathcal{D}$이라 하자. 각 데이터 표본(인스턴스)는 $d$차원 변수이고, label은 상수(스칼라) 이다. 이를 수식으로 표현하면 다음과 같다.
\[ \mathcal{D} = (X, y), \quad X=[x_1, \dots, x_n]^\top \in \mathbb{R}^{n \times d}, \quad y=[y_1, \dots, y_n]^\top \in \mathbb{R}^{n} \]
$X$의 $i$번째 표본은 $X_i = (x_i, y_i)$이고 $x_i$는 $d$차원 벡터이고 $y$는 스칼라이다. ($x_i \in \mathbb{R}^d$)
그리고 더 basis function(기저 함수, 혹은 feature map으로도 불린다)을 도입하여 선형식을 확장할 수 있다.
기저함수는 $d$차원을 $h$차원으로 매핑한다. 즉 $\phi: \mathbb{R}^d \to \mathbb{R}^h$
기저함수의 대표적인 예로 polynomial basis function이 있다. $\phi_i(x): x_i^i$
※ 이때 $x$에 대하여 비선형이지만, 파라미터($w$, 여기서는 $\theta$)는 여전히 선형이므로 선형모델이다.
기저함수를 사용하여 선형식은 다음과 같다.
\[ f(x;\theta) = \theta^\top \phi(x) \]
이때 $\theta \in \mathbb{R}^h$ 이다.
$\Phi = [\phi(x_1), \dots, \phi(x_n)]^\top \in \mathbb{R}^{n \times h}$ 을 design matrix이라 한다.
Least Square & Maximum Likelihood
least square를 이용하여 $\theta$를 구한 파라미터를 $\theta_{\text{LS}}$라 하자.
\begin{align} \theta_{\text{LS}} &= \underset{\theta}{\mathrm{argmin}} \| y - \Phi \theta \|^2 \\ &= (\Phi^\top \Phi)^{-1}\Phi^\top y \end{align}
Probabilistic interpretation of least square
observed label($y$)는 선형 예측 $\theta^\top \phi(x)$로 얻어지고 분산이 $\sigma^2$인 noise를 포함한 분포를 따른다.
\[ p(y_i|x_i; \theta) = \mathcal{N}(y_i | \theta^\top \phi(x_i), \sigma^2) \ i = 1, \dots, n \]
maximum likelihood를 이용하여 구한 파라미터를 $\theta_{\text{ML}}$라 하면
\[ \theta_{\text{ML}} = \underset{\theta}{\mathrm{argmax}} \log p(y|X; \theta) \]
이때 $\theta_{\text{LS}} = \theta_{\text{ML}}$ 이다. (증명 생략)
Ridge regression & Maximum A Posteriori
$\theta$를 구할 때 $(\Phi^\top \Phi)^{-1}$를 구해야한다. 근데 ill-condition이면(e.g. $n \ll h$) 역행렬을 구하기가 매우 불안정하다(unstable).
$(\Phi^\top \Phi)^{-1}$의 고유벡터를 빠르게 구하기 위해 $\lambda$를 더하여 파라미터를 구한다. ($\lambda>0$이고 작은 값이다.) 이렇게 regularized least square의 해를 ridge regression이라 한다.
\begin{align} \theta_{\text{Ridge}} &= (\Phi^\top \Phi + \lambda I_h)^{-1} \Phi^\top y \\ &= \underset{\theta}{\text{argmin}} \| y-\Phi \theta \|^2 + \lambda \| \theta \|^2 \end{align}
Probabilistic interpretation of ridge regression
observed label($y$)는 동일한 확률로 해석할 수 있지만, $\theta$는 random(분포)으로 가정된다.
\begin{align} p(y|x, \theta) &= \mathcal{N}(y|\theta^\top \phi(x), \sigma^2) \\ p(\theta) &= \mathcal{N}(\theta|0, (\sigma^2 / \lambda)I_h) \end{align}
$\theta$를 MAP를 이용한 점추정(point estimator)을 $\theta_{\text{MAP}}$라 하면 다음과 같다.
\[ \theta_{\text{MAP}} = \underset{\theta}{\text{argmax}} \log p(y|X, \theta) + \log p(\theta) \]
이때 $\theta_{\text{Ridge}} = \theta_{\text{MAP}}$ 이다. (증명 생략)
'스터디 > 인공지능, 딥러닝, 머신러닝' 카테고리의 다른 글
[Bayesian] Evidence lower bound (ELBO) and EM-algorithm (0) | 2023.11.11 |
---|---|
[CS224w, 2018] Network Representation (0) | 2023.10.17 |
[Bayesian] Exponential Family & Conjugate Priors (지수족, 켤레사전분포) (0) | 2023.09.13 |
[Bayesian] Frequentism vs Bayesian (빈도주의 vs 베이지안) (0) | 2023.08.29 |
[CS224w] Relational GCN (RGCN) (0) | 2023.08.09 |