본문 바로가기
728x90
반응형

분류 전체보기261

[Ensemble] Random Forests Random ForestsRandom Forests는 Bagging algorithm의 대표적인 방법이다.전체 데이터가 $N \times M$ 행렬이라 하자. ($N$은 instance 개수, $M$은 feature 개수)그리고 복원추출(random sampleing with replacement)을 이용하여 $N$개의 sample을 추출하여 학습데이터셋을 만든다.각 복원추출된 데이터 $D_i$마다 decision tree $C_i$를 학습한다. (각 모델이 사용하는 feature 수는 아래 Training을 참고)Note: Regression에서는 averaging, Classification에서는 max-voting을 이용한다.Bootstrap Sample$\mathcal{D} = \{ X_1, \d.. 2023. 5. 12.
[Ensemble] Basic Concept of Ensemble Methods, Bagging, Boosting Ensemble Methods하나의 classifier가 아니라 여러개의 classifier를 학습한 후, prediction을 aggregate하여 class label을 예측하는 방법이다. Why Majority Voting Works?간단히 생각하기 위해 (uncorrelated) 25개의 classifier가 모두 error rate가 $\epsilon=0.35$라고 하자.ensemble classifier가 잘못된 분류를 내릴 확률(13개 이상의 classifier가 잘못됨)을 계산해보자. \[ P(X \ge 13) = \sum_{i=13}^{25} \dbinom{25}{i} \epsilon^i (1 - \epsilon)^{25-i} \approx 0.06 \]각 분류기의 error rate가 .. 2023. 5. 12.
[Data Science] Linear Regression \[ f(\mathbf{x}) = w_0 + w_1 x_1 + w_2 x_2 + \dots \]위의 형태로 선형 데이터를 fitting하는 모델을 선형회귀(linear regression)이라 한다. 또는 아래와 같이 표현하기도 한다.\[ y = \beta_0 + \beta_1 x_1 + \cdots + \epsilon \] objective functionminimize the squared error squared error는 large error에 대하여 더 penalize한다.그러나 data sensitive하다는 단점이 있다. (erroneous data, outliers, etc.) Least Squares Method (최소제곱법, 최소자승법)least square criterion을 이용하.. 2023. 5. 12.
[Excel] 데이터 분석 기능 추가하기 엑셀을 이용하여 다양한 데이터 분석(회귀, 검정 등)을 할 수 있다. 그런데 엑셀 데이터 탭에 '데이터 분석'이 보이지 않는다. 파일 > 옵션 > 추가기능> 이동 원하는 기능(나의 경우 "분석 도구")를 체크 하고 확인 해결 2023. 5. 11.
[Machine Learning] SVM in Python (2) - Margin, Regularization, Non-linear SVM, Kernel Predefined visualization function간단한 시각화를 위한 함수를 정의했다.def plot_svc_decision_boundary(svm_clf, xmin, xmax): w = svm_clf.coef_[0] b = svm_clf.intercept_[0] # At the decision boundary, w0*x0 + w1*x1 + b = 0 # => x1 = -w0/w1 * x0 - b/w1 x0 = np.linspace(xmin, xmax, 200) decision_boundary = -w[0]/w[1] * x0 - b/w[1] margin = 1/w[1] gutter_up = decision_boundary + margin gutt.. 2023. 5. 11.
[Machine Learning] SVM in Python (1) Decision Boundary Synopsissklearn의 iris dataset으로 간단히 binary classification을 해보자.import numpy as npimport matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn import datasetsfrom sklearn.metrics import confusion_matrix SVC의 defalut kernel은 'rbf'이지만 linear로 먼저 살펴보자# Load Iris datasetiris = datasets.load_iris()X = iris["data"][:, (2, 3)] # petal length, petal widthy = iris["target"]# setosa 와 versicolor.. 2023. 5. 10.
728x90
반응형