728x90 반응형 전체 글266 Bootstrapping unknown distribution $F_{\theta}$에 대하여, sampling을 통해 population distribution $F_{\theta}$를 추론해보자. Recall: Empirical Distributionunknown distribution의 CDF를 $F_{\theta}$라 할 때, empirical distribution을 $\hat{F}$라 하고\[ \hat{F}(x) = \cfrac{1}{n}\sum_{i=1}^{n} I_{(\infty, x]}(x_i) \] 우리는 $n$이 커지면 $\hat{F}$가 $F_{\theta}$에 가까워질 것으로 기대한다. $\psi$를 추론하기 위해 $\hat{\psi}=\hat{\psi}(x_1, \dots, x_n)$을 이용하면\[ V_.. 2023. 5. 30. [CS224w] Dataset Split Why Splitting Graphs is Specialimage dataset을 생각해보자. 각 data point는 하나의 image이다. 5번째 image가 1번째 image에 영향을 주지 않는다.그러나 graph에서는 다른다. 각 node는 독립이 아니라 다른 node에 영향을 줄 수 있다. (message passing을 생각해보자) Transductive settinginput graph를 전체 데이터셋으로 간주한다. 예를 들어 training time에는 전체 그래프를 이용하여 embedding을하고, node 1과 node 2로 label을 학습한다.validation time에는 전체 그래프를 이용하여 embedding을 하고 node3과 node4 label로 evaluate한다.따라서.. 2023. 5. 29. Distribution-Free Methods, Method of Moments, Delta Method 이전까지는 MLE에 기반하여 추정하였다. 그러나 MLE는 어떤 분포를 바탕으로 추정하기 때문에 분포를 모르는 경우에는 적용할 수 없다.대표적으로 적률추정법(Method of Moments Estimation, MME)이 있고 Delta Methods(델타 방법)을 이용하여 추정량의 함수의 형태도 추정할 수 있다. Methods of Moments Estimation (MOM, MME, 적률추정법)적률추정법은 $k$차 적률 $\mu_k = E(X^k)$를 sample moment로 추정하는 방법이다.\[ \hat{\mu_k} = \widehat{E(X^k)} = \cfrac{1}{n}\sum_{i=1}^{n} X_i^k \] parameter가 하나라면 $E(X) = \bar{x}$, 두개라변 $Var(X.. 2023. 5. 27. Power Function of a test 어떤 가설 $H_0: \theta = theta_0$에 대하여 p-value가 $\alpha$보다 작으면 statistically significant하다고 한다. Power Function for two-sided z-test\begin{align*} Power &= P_{\mu}(\text{p-value} z_{1-\frac{\alpha}{2}} \right) \\ &= P\left( \overline{X} \mu_0 + z_{1-\alpha/2}\cfrac{\sigma_0}{\sqrt{n}} \right) \\ &= 1 - \Phi\left( \cfrac{\mu_0 - \mu}{\sigma_0 / \sqrt{n}} + z_{(1-\alpha/2)} \right) + \Phi\left( \cfr.. 2023. 5. 26. [Clustering] Density-Based Methods, DBSCAN Basic Concept of Density-Based ClusteringMajor features임의의 모양에 대한 clustering이 가능 (arbitrary shape)noise 조절1번만 조회 (one scan)종료 조건으로 density parameter가 필요함density-based clustering으로 DBSCAN, OPTICS, DENCLUE, CLIQUE 등이 있고 DBSCAN에 대하여 알아보자. DBSCANDensity-Based Spatial Clustering of Applications with NoiseDBSCAN 알고리즘은 2014 KDD test of time award를 수상했다.arbitrary shaperobust to noisescales well to large.. 2023. 5. 25. Testing Hypothesis and p-values Testing Hypothesis and p-value이론, 추측, 가설 등에서는 $\theta$의 값에 대하여 관심이 있다. (보통 $\theta$에 대한 함수로 표현 가능하고 교재에서 $\phi(\theta)$라고 한다.) 주로 \[ H_0:\ \theta = \theta_0 \]과 같이 표기하며 이를 null hypothesis라 한다. 이때 $\theta_0$는 데이터를 얻기 전에 어떤 값으로 특정되어야 한다. 이제 우위 $H_0$가 참일 때 관측된 데이터가 얼마나 unlikely한지 측정할 것이다. Note: $H_0$이 얼마나 likely한지 평가하는 것이 아니다. 얻은 데이터 $s$가 unlikely한지 평가하는 것이다.만일 under $H_0$에서 데이터 $s$가 surprising하다면,.. 2023. 5. 25. 이전 1 ··· 18 19 20 21 22 23 24 ··· 45 다음 728x90 반응형