본문 바로가기
728x90
반응형

스터디/데이터사이언스88

[Data Science] Decision Tree - Model Evaluation (Confusion Matrix, Metric, ROC Curve, AUC Score) Confusion MatrixClassification에 대하여 confusion matrix(혼동행렬)을 이용하여 결과를 볼 수 있다.Positive와 Negative는 각 클래스 이름이다.(이진 분류에서 P와 N을 주로 사용한다)각 분류에 대하여 True는 actual와 predicted가 일치하는 것을, False는 actual와 predicted가 불일치하는 것을 나타낸다.  (분류기) 모델의 정확도(Accuracy)는 Positive와 Negative를 얼마나 정확하게 분류한지에 대한 평가지표이다.\[ \text{Accuracy} = \cfrac{TP + TN}{TP + TN + FP + FN} \] Class Imbalance Problemaccuracy는 imbalanced class에서 모.. 2023. 4. 30.
[Data Science] Decision Tree - Overfitting Overfitting and UnderfittingOverfitting (과적합, 과대적합)과적합은 모델이 학습 데이터에 대해 너무 잘 학습되어 기본 패턴 대신 데이터의 노이즈에 맞추기 시작할 때 발생한다.학습 데이터에 지나치게 맞추면(overfit) 이후 새로운 데이터(new, unseen data)에 대하여 일반화를 하지 못할 수 있다. Underfitting (과소적합)과소 적합은 모델이 너무 단순하여 데이터의 기본 패턴을 포착할 수 없을 때 발생한다. 이는 모델이 학습 데이터와 테스트 데이터 모두에서 제대로 작동하지 않는다는 것을 의미한다.즉, 모델이 학습 데이터에서 보이지 않는 새로운 데이터(new, unseen data)를 정확하게 예측할 수 있을 만큼 충분히 학습하지 못했다는 뜻입니다.Ove.. 2023. 4. 29.
[Data Science] Decision Tree - Information Gain, Gain Ratio Entropy이전 포스팅에서 엔트로피에 대해 간단히 다뤄보았다.이제 엔트로피를 이용한 정보획득(information gain, IG)을 이용한 decision tree를 살펴보자. https://trivia-starage.tistory.com/106?category=1047124 Entropy의 의미 (정보이론)Entropy in information theory 정의 정보이론에서, 확률변수의 엔트로피는 변수의 불확실성의 기댓값이다. $\mathcal{X}$에서 추출한 (이산)확률변수 $X$의 엔트로피를 $H(X)$라 하고 아래와 같다. \[ H(X) = -\sumtrivia-starage.tistory.com\[ Entropy = -\sum_{i}p_i \log_2{p_i} \] Note: 이번 포스팅.. 2023. 4. 29.
[Data Science] Decision Tree in R iris dataset과 rpart를 이용한 예제이다. iris 데이터의 70%를 이용하여 decision tree를 학습하고 나머지 30%로 test한다. rm(list=ls()) library(rpart) library(rattle) library(caret) getAccF1 2023. 4. 28.
[Data Science] Missing Values 데이터를 살펴보면 결측치가 있는 경우를 종종 볼 수 있고 그 원인도 다양하다.센서가 고장나서 데이터 수집이 중단되었거나, (설문조사의 경우) 무응답이나 응답 거부를 하거나, object(instance, record)에 모두 대응되지않는 attribute가 있는 경우(임신 여부)가 있을 수 있다. 결측치를 0으로 대체하거나 평균/중앙값으로 대체할 수 있다.그러나 결측치는 항상 결측값이 아니다. 경우에 따라 그 값을 추정할 수 있다.이전에 결측값의 종류를 파악해보자.  Types of Missing Values결측치 종류에 대하여 설명하기 전에 몇가지 notation을 정리하겠다.$X_{obs}$: 우리의 관심이 되는 변수(attribute)의 관측 값. 이 값이 존재한다면 true value를 $X$라 .. 2023. 4. 21.
[Data Science] Chi-square test. 카이제곱검정 카이제곱검정목적동질성 검정과 독립성 검정 두 가지 검정이 가능하다. 동질성 검정: 데이터가 이항분포/정규분포와 동일한지 검정.독립성 검정: 두개 이상의 데이터가 서로 독립인지 검정. 이번 포스팅은 독립성 검정에 대하여 다룬다. 독립성 검정범주형 데이터(categorical attribute)에 대하여 두 데이터가 서로 독립인지 확인하는 검정이다.가설 검정$H_0$: 두 데이터는 독립이다. (실제 세계에서 서로 다른 두 변수는 독립으로 보는 것이 일반적이다.)$H_a$: 두 데이터는 독립이 아니다. (서로 상관성이 존재한다.) 검정 순서1. 두 범주형 데이터의 contigency table을 이용하여 Observed value($O_i$)와 Expected value($E_i$)를 구한다.2. 검정통계량 .. 2023. 4. 20.
728x90
반응형