본문 바로가기
728x90
반응형

전체 글266

[Ensemble] Basic Concept of Ensemble Methods, Bagging, Boosting Ensemble Methods하나의 classifier가 아니라 여러개의 classifier를 학습한 후, prediction을 aggregate하여 class label을 예측하는 방법이다. Why Majority Voting Works?간단히 생각하기 위해 (uncorrelated) 25개의 classifier가 모두 error rate가 $\epsilon=0.35$라고 하자.ensemble classifier가 잘못된 분류를 내릴 확률(13개 이상의 classifier가 잘못됨)을 계산해보자. \[ P(X \ge 13) = \sum_{i=13}^{25} \dbinom{25}{i} \epsilon^i (1 - \epsilon)^{25-i} \approx 0.06 \]각 분류기의 error rate가 .. 2023. 5. 12.
[Data Science] Linear Regression \[ f(\mathbf{x}) = w_0 + w_1 x_1 + w_2 x_2 + \dots \]위의 형태로 선형 데이터를 fitting하는 모델을 선형회귀(linear regression)이라 한다. 또는 아래와 같이 표현하기도 한다.\[ y = \beta_0 + \beta_1 x_1 + \cdots + \epsilon \] objective functionminimize the squared error squared error는 large error에 대하여 더 penalize한다.그러나 data sensitive하다는 단점이 있다. (erroneous data, outliers, etc.) Least Squares Method (최소제곱법, 최소자승법)least square criterion을 이용하.. 2023. 5. 12.
[Excel] 데이터 분석 기능 추가하기 엑셀을 이용하여 다양한 데이터 분석(회귀, 검정 등)을 할 수 있다. 그런데 엑셀 데이터 탭에 '데이터 분석'이 보이지 않는다. 파일 > 옵션 > 추가기능> 이동 원하는 기능(나의 경우 "분석 도구")를 체크 하고 확인 해결 2023. 5. 11.
[Machine Learning] SVM in Python (2) - Margin, Regularization, Non-linear SVM, Kernel Predefined visualization function간단한 시각화를 위한 함수를 정의했다.def plot_svc_decision_boundary(svm_clf, xmin, xmax): w = svm_clf.coef_[0] b = svm_clf.intercept_[0] # At the decision boundary, w0*x0 + w1*x1 + b = 0 # => x1 = -w0/w1 * x0 - b/w1 x0 = np.linspace(xmin, xmax, 200) decision_boundary = -w[0]/w[1] * x0 - b/w[1] margin = 1/w[1] gutter_up = decision_boundary + margin gutt.. 2023. 5. 11.
[Machine Learning] SVM in Python (1) Decision Boundary Synopsissklearn의 iris dataset으로 간단히 binary classification을 해보자.import numpy as npimport matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn import datasetsfrom sklearn.metrics import confusion_matrix SVC의 defalut kernel은 'rbf'이지만 linear로 먼저 살펴보자# Load Iris datasetiris = datasets.load_iris()X = iris["data"][:, (2, 3)] # petal length, petal widthy = iris["target"]# setosa 와 versicolor.. 2023. 5. 10.
[Machine Learning] SVM (Support Vector Machine) Intuition아래 2차원 평면에 두 개의 클래스(초록색과 흰색)이 있고, 이를 분류하는 가상의 초평면(2차원이므로 여기서는 직선)을 생각해보자. $B_1$과 $B_2$ 두 직선 모두 두 클래스를 완벽히 구분할 수 있다. 그렇다면 어떤 직선(고차원의 경우 초평면)이 더 좋은 것일까?직관적으로 우리는 $B_1$이 더 좋은 직선임을 알 수 있다. 그 이유는 각 클래스와의 거리가 가장 멀기 때문이다. support vector: hyperplane과 가장 가까운 data pointmargin: hyperplane과 support vector와의 거리. 일반적으로 margin이 클수록 좋은 SVM이다. Note: hyperplane은 street로, margin은 street width로 많이 비유된다.SVM.. 2023. 5. 9.
728x90
반응형