본문 바로가기
728x90
반응형

전체 글266

Ch5. Statistical Inference Why do we need statistics?지금까지 통계 이론을 많이 배웠다. 그렇다면 통계적 방법이 유용한 경우는 언제일까? 스탠포드 심장 이식 연구를 예시로 하여 생각을 해보자. 이 논문에는 심장 이식 프로그램의 성공 여부를 논하고 있다. 우리는 심장 이식 수술을 받은 환자가 그렇지 않은 환자보다 더 오래 사는지 관심을 가질 것이다. 그러나 이는 수술을 받은 환자와 수술을 받지 않은 환자 모두 사망할 때까지 기다려야 알 수 있다. 대신에, 심장 이식 수술을 받은 환자의 수명을 비교할 수 있다. 한가지 접근 방법은 심장 이식 수술을 받은 환자와, 그렇지 않은 환자의 수명 분포가 있다고 가정하는 것이다. 이식을 받은 집단을 $T$(Transplant)라 하고 수술을 받지 않은 집단을 대조군이라 하여 .. 2023. 5. 8.
[Data Science] Bayesian Classifier Bayesian Classifierattribute와 class label이 random variable이라 생각하면 attribute tuple이 주어졌을 때 특정 class label일 확률이 최대가 되는 클래스가 정답이라는 접근방법이다. 이때 attribute는 $(A_1, A_2, \dots, A_n)$이고 class label은 $C$라 하면\[ \max P(C | A_1, \dots, A_n) \]이 되는 $C$를 찾는 것이다. 그렇다면 $P(C | A_1, \dots, A_n)$을 어떻게 구할까? 이 때, bayes theorem을 이용하면 다음과 같다.\[ P(C | A_1, \dots, A_n) = \cfrac{P(A_1, \dots, A_n|C) P(C)}{P(A_1, \dots, A_.. 2023. 5. 3.
[Data Science] Decision Tree in Python (with Scikit-learn) Decision Tree in Scikit learn 사이킷런 공식 문서에 따르면, 사이킷런의 Decision Tree는 CART 알고리즘을 바탕으로 최적화되어 구현되어있다. 그러나 categorical variable을 더이상 지원하지 않는다. https://scikit-learn.org/stable/modules/tree.html#tree-algorithms-id3-c4-5-c5-0-and-cart Decision Tree Tutorial with Iris dataset 사이킷런의 붓꽃 데이터셋을 이용하여 간단하게 decision tree를 학습해보자. load dataset and fit the classifier from sklearn.datasets import load_iris from skl.. 2023. 5. 1.
[Data Science] Decision Tree - Model Evaluation (Confusion Matrix, Metric, ROC Curve, AUC Score) Confusion MatrixClassification에 대하여 confusion matrix(혼동행렬)을 이용하여 결과를 볼 수 있다.Positive와 Negative는 각 클래스 이름이다.(이진 분류에서 P와 N을 주로 사용한다)각 분류에 대하여 True는 actual와 predicted가 일치하는 것을, False는 actual와 predicted가 불일치하는 것을 나타낸다.  (분류기) 모델의 정확도(Accuracy)는 Positive와 Negative를 얼마나 정확하게 분류한지에 대한 평가지표이다.\[ \text{Accuracy} = \cfrac{TP + TN}{TP + TN + FP + FN} \] Class Imbalance Problemaccuracy는 imbalanced class에서 모.. 2023. 4. 30.
[Data Science] Decision Tree - Overfitting Overfitting and UnderfittingOverfitting (과적합, 과대적합)과적합은 모델이 학습 데이터에 대해 너무 잘 학습되어 기본 패턴 대신 데이터의 노이즈에 맞추기 시작할 때 발생한다.학습 데이터에 지나치게 맞추면(overfit) 이후 새로운 데이터(new, unseen data)에 대하여 일반화를 하지 못할 수 있다. Underfitting (과소적합)과소 적합은 모델이 너무 단순하여 데이터의 기본 패턴을 포착할 수 없을 때 발생한다. 이는 모델이 학습 데이터와 테스트 데이터 모두에서 제대로 작동하지 않는다는 것을 의미한다.즉, 모델이 학습 데이터에서 보이지 않는 새로운 데이터(new, unseen data)를 정확하게 예측할 수 있을 만큼 충분히 학습하지 못했다는 뜻입니다.Ove.. 2023. 4. 29.
[Data Science] Decision Tree - Information Gain, Gain Ratio Entropy이전 포스팅에서 엔트로피에 대해 간단히 다뤄보았다.이제 엔트로피를 이용한 정보획득(information gain, IG)을 이용한 decision tree를 살펴보자. https://trivia-starage.tistory.com/106?category=1047124 Entropy의 의미 (정보이론)Entropy in information theory 정의 정보이론에서, 확률변수의 엔트로피는 변수의 불확실성의 기댓값이다. $\mathcal{X}$에서 추출한 (이산)확률변수 $X$의 엔트로피를 $H(X)$라 하고 아래와 같다. \[ H(X) = -\sumtrivia-starage.tistory.com\[ Entropy = -\sum_{i}p_i \log_2{p_i} \] Note: 이번 포스팅.. 2023. 4. 29.
728x90
반응형