728x90 반응형 Machine learning12 Double Descent: new approach of bias-variance trade-off Double Descent: Modern approach of bias-variance trade-offclassic ML의 관점에서, bias-variance trade-off는 model complexity와 관련있다.이전 포스트를 참고해도 좋다.https://trivia-starage.tistory.com/238 Overfitting을 막는 방법들 (regularization, cross-validation, early stopping)Overfitting and Regularization ※ The blog post is based on lecture materials from Xavier Bresson, a professor at the National University of Singapore.. 2024. 3. 3. Overfitting을 막는 방법들 (regularization, cross-validation, early stopping) Overfitting and Regularization※ The blog post is based on lecture materials from Xavier Bresson, a professor at the National University of Singapore. The lecture materials can be found on the professor's LinkedIn. You can also found it at [1]. Under-fitting and over-fittingUnderfittinglearner가 충분한 표현력을 가지지 못함.training set에서 error를 생성.training/testing error 모두 높다.방지 방법: learner의 expressivity(또는 c.. 2024. 3. 2. 20 Ways of Encoding Categorical Features Library for Categorical Features Encoding [3]의 파이썬 패키지에 다양한 categorical encoding이 구현되어있다.import category_encoders as ceencoder = ce.BackwardDifferenceEncoder(cols=[...])encoder = ce.BaseNEncoder(cols=[...])encoder = ce.BinaryEncoder(cols=[...])encoder = ce.CatBoostEncoder(cols=[...])encoder = ce.CountEncoder(cols=[...])encoder = ce.GLMMEncoder(cols=[...])encoder = ce.GrayEncoder(cols=[...])encod.. 2024. 1. 30. [Clustering] Cluster Evaluation (silhouette coefficient, proximity matrix, clustering tendency) Measures of Cluster ValidityUnsupervised measure, Internal indexgoodness of a clustering structure w/o respect to external informationCluster Cohesion (compactness, tighness)Cluster Seperation (isolation) Supervised measure, External indexwhich cluster labels match externally supplied class labelsEntropy Relative measureCompare two different clustering resultsunsupervised/supervised measure 모두 적.. 2023. 6. 3. [Clustering] Density-Based Methods, DBSCAN Basic Concept of Density-Based ClusteringMajor features임의의 모양에 대한 clustering이 가능 (arbitrary shape)noise 조절1번만 조회 (one scan)종료 조건으로 density parameter가 필요함density-based clustering으로 DBSCAN, OPTICS, DENCLUE, CLIQUE 등이 있고 DBSCAN에 대하여 알아보자. DBSCANDensity-Based Spatial Clustering of Applications with NoiseDBSCAN 알고리즘은 2014 KDD test of time award를 수상했다.arbitrary shaperobust to noisescales well to large.. 2023. 5. 25. [Clustering] BIRCH Algorithm Basic Concepts of BIRCHBIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) Clustering Feature Tree(CF-Tree)를 점진적으로 증가시켜 데이터의 계층을 구성한다.(1) 데이터를 scan하여 CF tree를 구성한다.(2) arbitrary clustering 알고리즘을 이용하여 CF-tree의 leaf node를 cluster로 한다. Scales Linearlysingle scan만으로도 좋은 클러스터링이 가능하다.약간의 추가적인 scan으로 더 좋은 퀄리티 향상이 가능하다.전체적인 시간복잡도는 $O(n)$ 이다. Weaknessnumeric data만 적용할 수 있다.데이터 순서에 민감하다. .. 2023. 5. 23. 이전 1 2 다음 728x90 반응형