베이즈 정리에 필요한 notation을 먼저 정리하고 가자.
결합 확률 (joint probability)
사건
고등학교 수학에서는
조건부확률 (conditional probability)
사건
확률의 곱셈정리 (multiplication theorem)
결합확률과 조건부확률은 아래와 같은 관계가 성립한다.
전체 확률의 법칙 (the law of total probability)
표본공간의 부분집합
이 때 사건
확률의 덧셈정리
사건
주변확률(marginal probability)와 확률의 주변화(marginalization)
결합확률에서 어떤 변수 하나에 대한 확률을 계산하는 방법이다. 주목하지 않는 변수를 주변화한다고 한다.
이를 다변수 확률분포로 일반화하여
이산적인 경우
연속확률분포의 경우
이다.
이렇게 다른 변수들을 주변화하여 얻은 확률
베이즈 정리 (Bayes' theorem)
이때
우도(likelihood)라 하는 이유는
해석하자면, 사건

일반적으로 베이즈 정리에서는
Example1: Cancer rate
암 환자들이 100% 특정 공통 증상이 있다 하더라고, 그러한 증상이 있다 해서 항상 암인 것은 아니다.
어떤 암이 발병률이 1/10만 이라 가정하고 10/99999 건강한 사람들이 같은 증상을 갖는다고 하자. 이때 위의 증상이 있을 경우 이 사람이 실제로 암환자일 확률은 얼마인가?
암(Cancer) 발생 확률과 증상(Symptoms) 확률을 각각
따라서
전체확률의 정리에 따라
따라서
(즉, 증상이 있는 사람들 중 90.9%는 양성이 아닌데(암이 아닌데) 양성 판정을 받을 것이다.)
베이즈 정리의 확장
이를 이용하여 multi-class classification에서 유용하게 사용된다.
Naive Bayes Classifier
어차피 분모의 값은 상수로 고정되어있으므로
이를 이용하여 Classifier를 만들면
확률분포에 따라(e.g. 정규분포, 베르누이 분포)
Example2: Person Classification
8명의 데이터가 있다고 하자.
Person | height (feet) | weight (lbs) | foot size (inches) |
Male | 6 | 180 | 12 |
Male | 5.92 | 190 | 11 |
Male | 5.58 | 170 | 12 |
Male | 5.92 | 165 | 10 |
Female | 5 | 100 | 6 |
Female | 5.5 | 150 | 8 |
Female | 5.42 | 130 | 7 |
Female | 5.75 | 150 | 9 |
classifier는 Gaussian distribution을 따른다고 가정하자.
Person | mean(height) | variance(height) | mean(weight) | variance(weight) | mean(foot size) | variance(foot size) |
male | 5.855 | 3.5033 × 10−2 | 176.25 | 1.2292 × 102 | 11.25 | 9.1667 × 10−1 |
female | 5.4175 | 9.7225 × 10−2 | 132.5 | 5.5833 × 102 | 7.5 | 1.6667 |
이제 아래와 같은 instance가 주어졌을 때, 이 사람의 성별을 분류해보자.
Person | height (feet) | weight (lbs) | foot size (inches) |
??? | 6 | 130 | 8 |
예를 들어
를 계산할 때는
계산 생략하고 결과만 보면
'스터디 > 확률과 통계' 카테고리의 다른 글
Ch1. Probability Models (0) | 2023.03.04 |
---|---|
[확률] 생일문제 (0) | 2023.03.02 |
Chapter 10. Hypothesis Testing (0) | 2022.08.24 |
Chapter 9. Properties of Point Estimators and Methods of Estimation (0) | 2022.08.13 |
Chapter 8. Estimation (0) | 2022.08.05 |