본문 바로가기
728x90
반응형

분류 전체보기261

Testing Hypothesis and p-values Testing Hypothesis and p-value이론, 추측, 가설 등에서는 $\theta$의 값에 대하여 관심이 있다. (보통 $\theta$에 대한 함수로 표현 가능하고 교재에서 $\phi(\theta)$라고 한다.) 주로 \[ H_0:\ \theta = \theta_0 \]과 같이 표기하며 이를 null hypothesis라 한다. 이때 $\theta_0$는 데이터를 얻기 전에 어떤 값으로 특정되어야 한다. 이제 우위 $H_0$가 참일 때 관측된 데이터가 얼마나 unlikely한지 측정할 것이다. Note: $H_0$이 얼마나 likely한지 평가하는 것이 아니다. 얻은 데이터 $s$가 unlikely한지 평가하는 것이다.만일 under $H_0$에서 데이터 $s$가 surprising하다면,.. 2023. 5. 25.
[CS224w] Training Graph Neural Networks Supervised vs UnsupervisedSupervised Labels on GraphsNode label $\mathbf{y}_{v}$: citation network에서 어떤 subject가 node에 속하는지Edge label $\mathbf{y}_{uv}$: transaction network에서 edge가 fraud인지 아닌지Graph label $\mathbf{y}_{G}$: 분자 그래프에서 신약이 될 가능성 예측 Unsupervised Signals on Graphs그러나 대부분 우리는 그래프 구조는 갖고 있지만 external label이 없는 경우가 많다.self-supervised learning을 고려한다. Node label $\mathbf{y}_{v}$: Node stati.. 2023. 5. 24.
Inferences Based on the MLE (MSE, Standard Error, Consistency, Confidence Interval) MSE and Unbiased EstimatorMLE를 통해 추정량 $\hat{\theta}$를 구할 수 있었다. 우리는 이렇게 구한 추정량이 실제 참 값 $\theta$가 되기를 원한다. 이를 평가하기 위한 measure가 필요하다. (to evaluate MLE, which is good and bad) Mean-squared error (MSE, 평균제곱오차)$\theta$에 대한 추정량 $\hat{\theta}$의 평균제곱오차 MSE는 다음과 같다.\[ \text{MSE}(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] \]Decomposition of MSE\[ \text{MSE}(\hat{\theta}) = Var(\hat{\theta}) + [\text{Bia.. 2023. 5. 23.
[Clustering] BIRCH Algorithm Basic Concepts of BIRCHBIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) Clustering Feature Tree(CF-Tree)를 점진적으로 증가시켜 데이터의 계층을 구성한다.(1) 데이터를 scan하여 CF tree를 구성한다.(2) arbitrary clustering 알고리즘을 이용하여 CF-tree의 leaf node를 cluster로 한다. Scales Linearlysingle scan만으로도 좋은 클러스터링이 가능하다.약간의 추가적인 scan으로 더 좋은 퀄리티 향상이 가능하다.전체적인 시간복잡도는 $O(n)$ 이다. Weaknessnumeric data만 적용할 수 있다.데이터 순서에 민감하다. .. 2023. 5. 23.
[Clustering] Hierarchical Clustering (계층적 군집화) IntroductionHierarchical tree 형태로 nested cluster를 구성한다.Dendrogram으로 클러스터를 시각화한다.Clustering criteria로 주로 distance matrix를 이용한다. Strengths of Hierarchical Clustering클러스터가 몇 개인지 직접 가정할 필요가 없다. (k-means는 우리가 직접 $k$를 정해야했다)dendrogram에서 적정 수준에서 cutting을 하면 어떠한 클러스터 개수도 가능하다. 계층적 클러스터는 (아마도) 의미있는 분류체계와 대응될 것이다. (meaningful taxonomies)biological science에서 특히 유용하다. (animal kingdom, phylogeny reconstructi.. 2023. 5. 22.
[Clustering] Drawbacks of K-means and Solutions with Python (K-means 단점과 해결방법) Setup# Start from importing necessary packages.import warningsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom IPython.display import displayfrom sklearn import metrics # for evaluationsfrom sklearn.datasets import make_blobs, make_circles # for generating experimental datafrom sklearn.preprocessing import StandardScaler # for feature scalingfrom sklearn.cluster im.. 2023. 5. 21.
728x90
반응형