728x90 반응형 clustering11 [Clustering] Drawbacks of K-means and Solutions with Python (K-means 단점과 해결방법) Setup# Start from importing necessary packages.import warningsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom IPython.display import displayfrom sklearn import metrics # for evaluationsfrom sklearn.datasets import make_blobs, make_circles # for generating experimental datafrom sklearn.preprocessing import StandardScaler # for feature scalingfrom sklearn.cluster im.. 2023. 5. 21. [Clustering] K-means Clustering in Python (K-means 알고리즘) Setup# Start from importing necessary packages.import warningsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom IPython.display import displayfrom sklearn import metrics # for evaluationsfrom sklearn.datasets import make_blobs, make_circles # for generating experimental datafrom sklearn.preprocessing import StandardScaler # for feature scalingfrom sklearn.cluster im.. 2023. 5. 20. [Clustering] Model-based Methods, Expectation Maximization (EM) Model-Based Clustering주어진 데이터를 만족하는 수학적 모델링을 최적화하는 방법.기본 가정: 데이터는 여러 확률 분포의 혼합이다. (mixture of underlying probability distribution) Clustering에서는 Expectation Maximization(EM, 기댓값 최대화)가 대표적인 model-based clustering이다.Expectation Maximization (1977)Overview$N$개의 $\mathbb{R}^2$ 데이터 $\mathbf{X}$가 주어졌을 때, $K$개의 Gaussian 분포의 파라미터 $\mathbf{\Theta}$를 구한다.\[ \mathbf{X} = (x_1, x_2, \dots, x_N), \quad \math.. 2023. 5. 19. [Clustering] Partitioning Methods, K-Means Clustering, PAM, k-Medoids Clustering Basic Concepts of Partitioning MethodsPartitioning method는 $n$개의 object(데이터)를 $k$개의 partition(이자 cluster)으로 분할하는 것을 의미한다.각 group(cluster, partition)은 최소 하나의 object를 포함해야한다.각 object는 정확히 하나의 group(cluster, partition)에만 속한다.Initial partitioning으로 시작하여, iterative relocation technique를 이용하여 partitioning을 향상시킨다. 대표적으로 k-means, k-medoids, PAM 알고리즘이 속한다.K-Means Clustering(1) 데이터 $D$에서 임의로 $k$개의 object를.. 2023. 5. 18. [Clustering] Overview, Approach, Cluster Analysis Cluster AnalysisCluster - 같은 집단은 비슷하거나 연관있도록, 다른 집단은 비슷하지 않거나 적게 연관되도록 군집화한다.Cluster analysis (clustering, data segmentation) - 데이터간의 특징을 통해 유사성을 찾아서 유사한 군집으로 매칭한다.Unsupervised learning: predefined class가 필요하지 않다. clustering 자체만으로도 데이터 분포에 대한 정보를 얻을 수 있지만(stand-alone tool), 다른 알고리즘을 적용하기 전에 전처리 단계로 사용할 수 있다. (preprocessing step) Clustering as a Preprocessing ToolSummarization - regression, class.. 2023. 5. 17. 이전 1 2 다음 728x90 반응형