본문 바로가기
728x90
반응형

data mining37

[Data Science] K-Nearest Neighbor (k-NN, Lazy Learning, k-최근접 이웃) Lazy vs Eager LearningLazy Learning (e.g. instance-based learining): training data를 저장하고 new data(test data)를 입력받을 때 classifiy한다.Eager Learning: new data(test data)를 입력받기전에 classification model을 먼저 구성한다. 이전에 다룬 decision tree, naive bayes classifier는 eager learning이다. EfficiencyLazy learning은 training time은 짧지만 predicting에서 더 많은 시간이 걸린다. AccuracyLazy Learning은 더 복잡한 결정 공간(more complex decision sp.. 2023. 6. 10.
[Clustering] Cluster Evaluation (silhouette coefficient, proximity matrix, clustering tendency) Measures of Cluster ValidityUnsupervised measure, Internal indexgoodness of a clustering structure w/o respect to external informationCluster Cohesion (compactness, tighness)Cluster Seperation (isolation) Supervised measure, External indexwhich cluster labels match externally supplied class labelsEntropy Relative measureCompare two different clustering resultsunsupervised/supervised measure 모두 적.. 2023. 6. 3.
[Clustering] Density-Based Methods, DBSCAN Basic Concept of Density-Based ClusteringMajor features임의의 모양에 대한 clustering이 가능 (arbitrary shape)noise 조절1번만 조회 (one scan)종료 조건으로 density parameter가 필요함density-based clustering으로 DBSCAN, OPTICS, DENCLUE, CLIQUE 등이 있고 DBSCAN에 대하여 알아보자. DBSCANDensity-Based Spatial Clustering of Applications with NoiseDBSCAN 알고리즘은 2014 KDD test of time award를 수상했다.arbitrary shaperobust to noisescales well to large.. 2023. 5. 25.
[Clustering] BIRCH Algorithm Basic Concepts of BIRCHBIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) Clustering Feature Tree(CF-Tree)를 점진적으로 증가시켜 데이터의 계층을 구성한다.(1) 데이터를 scan하여 CF tree를 구성한다.(2) arbitrary clustering 알고리즘을 이용하여 CF-tree의 leaf node를 cluster로 한다. Scales Linearlysingle scan만으로도 좋은 클러스터링이 가능하다.약간의 추가적인 scan으로 더 좋은 퀄리티 향상이 가능하다.전체적인 시간복잡도는 $O(n)$ 이다. Weaknessnumeric data만 적용할 수 있다.데이터 순서에 민감하다. .. 2023. 5. 23.
[Clustering] Hierarchical Clustering (계층적 군집화) IntroductionHierarchical tree 형태로 nested cluster를 구성한다.Dendrogram으로 클러스터를 시각화한다.Clustering criteria로 주로 distance matrix를 이용한다. Strengths of Hierarchical Clustering클러스터가 몇 개인지 직접 가정할 필요가 없다. (k-means는 우리가 직접 $k$를 정해야했다)dendrogram에서 적정 수준에서 cutting을 하면 어떠한 클러스터 개수도 가능하다. 계층적 클러스터는 (아마도) 의미있는 분류체계와 대응될 것이다. (meaningful taxonomies)biological science에서 특히 유용하다. (animal kingdom, phylogeny reconstructi.. 2023. 5. 22.
[Clustering] Drawbacks of K-means and Solutions with Python (K-means 단점과 해결방법) Setup# Start from importing necessary packages.import warningsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom IPython.display import displayfrom sklearn import metrics # for evaluationsfrom sklearn.datasets import make_blobs, make_circles # for generating experimental datafrom sklearn.preprocessing import StandardScaler # for feature scalingfrom sklearn.cluster im.. 2023. 5. 21.
728x90
반응형