본문 바로가기
728x90
반응형

data mining37

[Clustering] K-means Clustering in Python (K-means 알고리즘) Setup# Start from importing necessary packages.import warningsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom IPython.display import displayfrom sklearn import metrics # for evaluationsfrom sklearn.datasets import make_blobs, make_circles # for generating experimental datafrom sklearn.preprocessing import StandardScaler # for feature scalingfrom sklearn.cluster im.. 2023. 5. 20.
[Clustering] Model-based Methods, Expectation Maximization (EM) Model-Based Clustering주어진 데이터를 만족하는 수학적 모델링을 최적화하는 방법.기본 가정: 데이터는 여러 확률 분포의 혼합이다. (mixture of underlying probability distribution) Clustering에서는 Expectation Maximization(EM, 기댓값 최대화)가 대표적인 model-based clustering이다.Expectation Maximization (1977)Overview$N$개의 $\mathbb{R}^2$ 데이터 $\mathbf{X}$가 주어졌을 때, $K$개의 Gaussian 분포의 파라미터 $\mathbf{\Theta}$를 구한다.\[ \mathbf{X} = (x_1, x_2, \dots, x_N), \quad \math.. 2023. 5. 19.
[Clustering] Partitioning Methods, K-Means Clustering, PAM, k-Medoids Clustering Basic Concepts of Partitioning MethodsPartitioning method는 $n$개의 object(데이터)를 $k$개의 partition(이자 cluster)으로 분할하는 것을 의미한다.각 group(cluster, partition)은 최소 하나의 object를 포함해야한다.각 object는 정확히 하나의 group(cluster, partition)에만 속한다.Initial partitioning으로 시작하여, iterative relocation technique를 이용하여 partitioning을 향상시킨다. 대표적으로 k-means, k-medoids, PAM 알고리즘이 속한다.K-Means Clustering(1) 데이터 $D$에서 임의로 $k$개의 object를.. 2023. 5. 18.
[Clustering] Overview, Approach, Cluster Analysis Cluster AnalysisCluster - 같은 집단은 비슷하거나 연관있도록, 다른 집단은 비슷하지 않거나 적게 연관되도록 군집화한다.Cluster analysis (clustering, data segmentation) - 데이터간의 특징을 통해 유사성을 찾아서 유사한 군집으로 매칭한다.Unsupervised learning: predefined class가 필요하지 않다. clustering 자체만으로도 데이터 분포에 대한 정보를 얻을 수 있지만(stand-alone tool), 다른 알고리즘을 적용하기 전에 전처리 단계로 사용할 수 있다. (preprocessing step) Clustering as a Preprocessing ToolSummarization - regression, class.. 2023. 5. 17.
[Ensemble] AdaBoost in Python (scikit-learn) Setup필요한 라이브러리를 import하자.# To support both python 2 and python 3from __future__ import division, print_function, unicode_literals# Common importsimport numpy as npimport os# to make this notebook's output stable across runsnp.random.seed(42)# To plot pretty figures%matplotlib inlineimport matplotlib as mplimport matplotlib.pyplot as pltmpl.rc('axes', labelsize=14)mpl.rc('xtick', labelsize=12)mpl.. 2023. 5. 16.
[Ensemble] AdaBoost AdaBoostadaptive boosting 이다.Algorithm in OverviewGiven: $d$개의 class-labeled tuple이 input으로 주어진다. $(\mathbf{X}_1, y_1), \dots, (\mathbf{X}_d, y_d)$ 맨 처음, 모든 tuple은 uniformly weighed 된다. 즉 $j$번째 tuple의 weight는 $\frac{1}{d}$이다. $T$ round동안 $T$개의 classifier를 생성한다. 그리고 $i$번째 round에서,$\mathcal{D}$로부터 복원추출(sampling with replacement)하여 training set $D_i$를 얻는다.각 tuple은 각 weight에 기반하여 selected 확률을 지닌다.$D.. 2023. 5. 16.
728x90
반응형