본문 바로가기
728x90
반응형

전체 글266

[Data Science] Decision Tree in R iris dataset과 rpart를 이용한 예제이다. iris 데이터의 70%를 이용하여 decision tree를 학습하고 나머지 30%로 test한다. rm(list=ls()) library(rpart) library(rattle) library(caret) getAccF1 2023. 4. 28.
정규분포와 관련된 이론: 카이제곱분포, 표본분산, t-분포, F-분포 (Normal Distribution Theory: Chi-squared distribution, sample variance, t-distribution, F-distribution) Normal Distribution Theory정규분포를 따르는 2개의 확률변수의 합은 정규분포임을 알 수 있었다.이제 이를 확장해서 $n$개의 확률변수의 합도 정규분포를 따르는지 알아보자.$n$개의 확률변수 $X_i \sim N(\mu_i, \sigma_i^2)$의 합을 $Y=(\sum_i a_iX_i)+b$라 하면\[ Y \sim \left( (\sum_i a_i \mu_i)+b,\ \sum_i a_i^2\sigma_i^2) \right) \]Proofmgf를 이용하여 증명한다.확률변수의 합의 mgf는 각 확률변수의 mgf의 곱과 같으므로$M_Y(t) = \Pi_i M_{X_i}(t) = e^{bt} \cdot \text{exp}[\sum_i(a_i\mu_i)t + \Pi_i(a_i\sigma_i)^.. 2023. 4. 26.
[CS224w] Prediction with GNNs 지금까지 공부한 내용은 그래프, GNN, Node embedding이다.이렇게 얻은 결과는 node embedding 집합이다. $\{ \mathbf{h}_v^{(L)}, v \in G \}$ 이제 GNN으로 Prediction Task를 할 것이다.크게 3가지 prediction이 있고 node-level, edge-level, graph-level prediction으로 나눌 수 있다.Node-level predictionnode-level prediction의 경우, 노드 임베딩을 직접 이용할 수 있다.$L$개의 layer를 가진 GNN을 통과하여 $d$차원 노드임베딩을 얻을 수 있다,\[ \{ \mathbf{h}_v^{(L)} \in \mathbb{R}^d, \forall v \in G \} \].. 2023. 4. 26.
중심극한정리 (The Central Limit Theorem, CLT) The Central Limit TheoremThe Central Limit Theorem (CLT, 중심극한정리)$X_1, X_2, \dots$가 i.i.d이고 유한한 평균과 분산이 각각 $\mu,\ \sigma^2$이라 하자. sequence $Z_n$이\[ Z_n = \sqrt{n} \left( \cfrac{\overline{X}_n - \mu}{\sigma} \right) \]라 하면, $Z_n$은 표준정규분포로 분포수렴한다. ($Z_n \overset{D}{\to} Z$ where $Z \sim N(0, 1)$)Note: 표본표준편차는 $\sigma_{\overline{X}} = \cfrac{\sigma}{\sqrt{n}}$이므로 $Z_n=\cfrac{\overline{X}-\mu}{\sigma.. 2023. 4. 25.
[CS224w] Graph Augmentation Introduction지금까지  input graph와 computational graph가 같다는 가정이 필요했다.그러나 여러 이유로 인해 이러한 가정을 유지할 수 없다. Feature levelfeature가 부족 → feature augmentation Structure leveltoo sparse → message passing이 비효율적 → add virtual node/edgetoo dense → message passing이 too costly → sample neighbors when doing message passingtoo large → GPU로도 부족한 계산량 → sample subgraphs to compute embeddings Feature AugmentationCase 1. .. 2023. 4. 24.
확률변수의 수렴과 큰 수의 법칙 (Sampling, Convergence, Law of Large Numbers) Sampling Distributions (표본 분포)같은 분포에서 독립적으로 추출한 확률변수 $X_1, \dots, X_n$ (i.i.d)에 대하여 새로운 확률변수 $Y$를 도입하자. 이때 어떤 함수 $h$(예를 들어, $h$는 평균이나 분산과 같은 함수가 가능하다.)의 형태일 수 있다.\[ Y = h(X_1, \dots, X_n) \]이때 $Y$의 분포를 sampling distribution(표본 분포)라고 부른다. 확률변수 $Y$는 $n$에 의존적이므로 우리는 확률변수로 이루어진 수열을 생각해볼 수 있다. 즉 $Y_1, Y_2, \dots, Y_n, \dots$ 말이다. 우리는 $n$이 커짐에 따라 $Y_n$이 $Y$로 수렴하기를 바란다.  4.5에서 배울 내용인 몬테카를로 시뮬레이션을 통해 $Y.. 2023. 4. 23.
728x90
반응형