본문 바로가기
728x90
반응형

분류 전체보기250

[Clustering] Hierarchical Clustering (계층적 군집화) IntroductionHierarchical tree 형태로 nested cluster를 구성한다.Dendrogram으로 클러스터를 시각화한다.Clustering criteria로 주로 distance matrix를 이용한다. Strengths of Hierarchical Clustering클러스터가 몇 개인지 직접 가정할 필요가 없다. (k-means는 우리가 직접 $k$를 정해야했다)dendrogram에서 적정 수준에서 cutting을 하면 어떠한 클러스터 개수도 가능하다. 계층적 클러스터는 (아마도) 의미있는 분류체계와 대응될 것이다. (meaningful taxonomies)biological science에서 특히 유용하다. (animal kingdom, phylogeny reconstructi.. 2023. 5. 22.
[Clustering] Drawbacks of K-means and Solutions with Python (K-means 단점과 해결방법) Setup# Start from importing necessary packages.import warningsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom IPython.display import displayfrom sklearn import metrics # for evaluationsfrom sklearn.datasets import make_blobs, make_circles # for generating experimental datafrom sklearn.preprocessing import StandardScaler # for feature scalingfrom sklearn.cluster im.. 2023. 5. 21.
[Clustering] K-means Clustering in Python (K-means 알고리즘) Setup# Start from importing necessary packages.import warningsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom IPython.display import displayfrom sklearn import metrics # for evaluationsfrom sklearn.datasets import make_blobs, make_circles # for generating experimental datafrom sklearn.preprocessing import StandardScaler # for feature scalingfrom sklearn.cluster im.. 2023. 5. 20.
[Clustering] Model-based Methods, Expectation Maximization (EM) Model-Based Clustering주어진 데이터를 만족하는 수학적 모델링을 최적화하는 방법.기본 가정: 데이터는 여러 확률 분포의 혼합이다. (mixture of underlying probability distribution) Clustering에서는 Expectation Maximization(EM, 기댓값 최대화)가 대표적인 model-based clustering이다.Expectation Maximization (1977)Overview$N$개의 $\mathbb{R}^2$ 데이터 $\mathbf{X}$가 주어졌을 때, $K$개의 Gaussian 분포의 파라미터 $\mathbf{\Theta}$를 구한다.\[ \mathbf{X} = (x_1, x_2, \dots, x_N), \quad \math.. 2023. 5. 19.
[Clustering] Partitioning Methods, K-Means Clustering, PAM, k-Medoids Clustering Basic Concepts of Partitioning MethodsPartitioning method는 $n$개의 object(데이터)를 $k$개의 partition(이자 cluster)으로 분할하는 것을 의미한다.각 group(cluster, partition)은 최소 하나의 object를 포함해야한다.각 object는 정확히 하나의 group(cluster, partition)에만 속한다.Initial partitioning으로 시작하여, iterative relocation technique를 이용하여 partitioning을 향상시킨다. 대표적으로 k-means, k-medoids, PAM 알고리즘이 속한다.K-Means Clustering(1) 데이터 $D$에서 임의로 $k$개의 object를.. 2023. 5. 18.
Maximum Likelihood Estimation (MLE, 최대우도추정법) Maximum Likelihood Estimator$L(\hat{\theta}(s) | s) \ge L(\theta | s)$를 만족하는 $\hat{\theta}: S \to \Omega$를 maximum likelihood estimator라 하고, $\hat{\theta}(s)$의 값을 maximum likelihood estimate, (MLE)라고 부른다.Example 6.2.1.표본공간은 $S = \{1, 2, 3 \}$이고 파라미터공간은 $\Omega=\{1, 2 \}$인 두 개의 model이 다음과 같다.각 $s$마다 $L$이 가장 클 때를 조사하면 $\hat{\theta}(1)=1,\ \hat{\theta}(2)=2,\ \hat{\theta}(3)=1$Note: MLE는 유일하지 않다. (.. 2023. 5. 17.
728x90
반응형