본문 바로가기
728x90
반응형

분류 전체보기261

[Clustering] K-means Clustering in Python (K-means 알고리즘) Setup# Start from importing necessary packages.import warningsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom IPython.display import displayfrom sklearn import metrics # for evaluationsfrom sklearn.datasets import make_blobs, make_circles # for generating experimental datafrom sklearn.preprocessing import StandardScaler # for feature scalingfrom sklearn.cluster im.. 2023. 5. 20.
[Clustering] Model-based Methods, Expectation Maximization (EM) Model-Based Clustering주어진 데이터를 만족하는 수학적 모델링을 최적화하는 방법.기본 가정: 데이터는 여러 확률 분포의 혼합이다. (mixture of underlying probability distribution) Clustering에서는 Expectation Maximization(EM, 기댓값 최대화)가 대표적인 model-based clustering이다.Expectation Maximization (1977)Overview$N$개의 $\mathbb{R}^2$ 데이터 $\mathbf{X}$가 주어졌을 때, $K$개의 Gaussian 분포의 파라미터 $\mathbf{\Theta}$를 구한다.\[ \mathbf{X} = (x_1, x_2, \dots, x_N), \quad \math.. 2023. 5. 19.
[Clustering] Partitioning Methods, K-Means Clustering, PAM, k-Medoids Clustering Basic Concepts of Partitioning MethodsPartitioning method는 $n$개의 object(데이터)를 $k$개의 partition(이자 cluster)으로 분할하는 것을 의미한다.각 group(cluster, partition)은 최소 하나의 object를 포함해야한다.각 object는 정확히 하나의 group(cluster, partition)에만 속한다.Initial partitioning으로 시작하여, iterative relocation technique를 이용하여 partitioning을 향상시킨다. 대표적으로 k-means, k-medoids, PAM 알고리즘이 속한다.K-Means Clustering(1) 데이터 $D$에서 임의로 $k$개의 object를.. 2023. 5. 18.
Maximum Likelihood Estimation (MLE, 최대우도추정법) Maximum Likelihood Estimator$L(\hat{\theta}(s) | s) \ge L(\theta | s)$를 만족하는 $\hat{\theta}: S \to \Omega$를 maximum likelihood estimator라 하고, $\hat{\theta}(s)$의 값을 maximum likelihood estimate, (MLE)라고 부른다.Example 6.2.1.표본공간은 $S = \{1, 2, 3 \}$이고 파라미터공간은 $\Omega=\{1, 2 \}$인 두 개의 model이 다음과 같다.각 $s$마다 $L$이 가장 클 때를 조사하면 $\hat{\theta}(1)=1,\ \hat{\theta}(2)=2,\ \hat{\theta}(3)=1$Note: MLE는 유일하지 않다. (.. 2023. 5. 17.
[Clustering] Overview, Approach, Cluster Analysis Cluster AnalysisCluster - 같은 집단은 비슷하거나 연관있도록, 다른 집단은 비슷하지 않거나 적게 연관되도록 군집화한다.Cluster analysis (clustering, data segmentation) - 데이터간의 특징을 통해 유사성을 찾아서 유사한 군집으로 매칭한다.Unsupervised learning: predefined class가 필요하지 않다. clustering 자체만으로도 데이터 분포에 대한 정보를 얻을 수 있지만(stand-alone tool), 다른 알고리즘을 적용하기 전에 전처리 단계로 사용할 수 있다. (preprocessing step) Clustering as a Preprocessing ToolSummarization - regression, class.. 2023. 5. 17.
Likelihood function, Sufficient Statistics, Minimum Sufficient Statistics (가능도함수, 충분통계량, 최소충분통계량) Likelihood Functionlikelihood inference는 관찰한 데이터 $s$와 Statistical Model(통계모델) $\{P_{\theta}: \theta \in \Omega \}$ 을 이용한 추정법이다. 일반적으로 pmf, pdf의 경우 각각 $P_{\theta},\ f_{\theta}$로 표기하지만 포스팅에서는 맥락에 맞추어 $f_{\theta}$로 통일한다. likelihood function은 다음과 같이 정의한다.\[ L(\theta | s) = f_{\theta}(s) \] $f_{\theta_1}(s) > f_{\theta_2}(s)$라면, 데이터 $s$는 $\theta = \theta_1$일 때 더 관측될 가능성(믿음)이 높다고 한다. $S = \{ 1, 2, \do.. 2023. 5. 16.
728x90
반응형