베이즈 정리에 필요한 notation을 먼저 정리하고 가자.
결합 확률 (joint probability)
사건 $A$와 사건 $B$가 동시에(함께) 발생할 확률을 결합확률이라 하고 $P(A, \ B)$로 나타낸다.
고등학교 수학에서는 $P(A \cap B)$로 나타내기도 하며 정확히 $P(X=x, Y=y)$로 정확히 표기하기도 한다.
조건부확률 (conditional probability)
사건 $B$가 일어났을 때(이런 사실이 알려졌을 때) 사건 $A$가 발생할 확률을 조건부 확률이라 하고 $P(A | B)$로 나타낸다.
확률의 곱셈정리 (multiplication theorem)
결합확률과 조건부확률은 아래와 같은 관계가 성립한다.
\[ P(A, \ B) = P(A | B)P(B) \]
전체 확률의 법칙 (the law of total probability)
표본공간의 부분집합 $B$를 $n$개의 partition으로 나누고 각각의 partition을 $B_i$라 하자. (즉 $B_i \cap B_j = \varnothing$)
이 때 사건 $A$의 확률 $P(A)$는 다음과 같다.
\[ P(A) = \sum_n P(A \cap B_n) = \sum_n P(A | B_n) P(B_n) \]
확률의 덧셈정리
사건 $A$와 사건 $B$ 중 적어도 한쪽이 일어나는 사건을 합사건(sum event)라고 하고, $A \cup B$로 나타낸다. 그리고 사건 $A$와 $B$가 모두 일어나는 사건을 곱사건(product event)라 하고 $A \cap B$로 나타낸다. 이때 합사건의 확률을 구하려면 아래의 덧셈정리를 만족한다.
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]
주변확률(marginal probability)와 확률의 주변화(marginalization)
결합확률에서 어떤 변수 하나에 대한 확률을 계산하는 방법이다. 주목하지 않는 변수를 주변화한다고 한다. $X$에 주목한다면 $X$가 아닌 변수들을 주변화하여 $P(X)$를 구한다.
\[ P_X(x_i) = \sum_jp(x_i, y_j) \ \text{and} \ P_Y(y_j)=\sum_ip(x_i, y_j) \]
이를 다변수 확률분포로 일반화하여 $n$변수 중에서 $k$번째 확률만 구할 때 나머지 변수들을 주변화한다.
이산적인 경우
\[ p_{X_i}(k) = \sum p(x_1, x_2, \dots , x_{i-1}, k, x_{i+1}, \dots ,x_n) \]
연속확률분포의 경우
\[ f_{X_i}(x_i) = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty}f(x_1, x_2, \dots , x_n) dx_1 dx_2 \cdots dx_{i-1} dx_{i+1} \cdots dx_n \]
이다.
이렇게 다른 변수들을 주변화하여 얻은 확률 $P(X)$를 주변확률이라 한다.
베이즈 정리 (Bayes' theorem)
\[ P(A | B) = \cfrac{P(B | A) P(A)}{P(B)} \text{,} \ P(B) \neq 0 \]
이때 $P(A)$와 $P(B)$는 사전확률(prior probability) 혹은 주변확률(marginal probability)이라 부르고, $P(A | B)$는 사후확률(posterior probability), $P(B|A)$는 우도(likelihood)라고 한다.
우도(likelihood)라 하는 이유는
해석하자면, 사건 $B$가 발생하기 전에 $P(A)$의 확률을 갖고 있었는데, 사건 $B$가 발생하여 이 정보를 반영하여 $P(A | B)$로 확률이 변한다. 그래서 사후확률이라고 부른다. (새로운 정보 $B$가 기존 $A$를 추론하는데 영향을 준다.)
일반적으로 베이즈 정리에서는 $A$, $B$ 대신에 $H$, $E$로 표기한다. 이는 각각 가설과 증거의 앞글자를 따온 것이다. 이러면 새로운 증거 $E$가 추가되었을 때, 나의 가설 $H$의 확률이 변할 것이다.
\[ P(H|E) =P(H) \times \cfrac{P(E | H)}{P(E)} \]
Example1: Cancer rate
암 환자들이 100% 특정 공통 증상이 있다 하더라고, 그러한 증상이 있다 해서 항상 암인 것은 아니다.
어떤 암이 발병률이 1/10만 이라 가정하고 10/99999 건강한 사람들이 같은 증상을 갖는다고 하자. 이때 위의 증상이 있을 경우 이 사람이 실제로 암환자일 확률은 얼마인가?
암(Cancer) 발생 확률과 증상(Symptoms) 확률을 각각 $P(C),\ P(S)$라 하자. 그러면
$P(S|C) = 1, \ P(C) = \cfrac{1}{100000},\ P(S) = \cfrac{10}{99999}$ 을 바탕으로 $P(C|S)$를 구하는 문제가 된다.
따라서 $P(C | S)$를 구하면
\[ P(C|S) = \cfrac{P(S|C) P(C)}{P(S)} \]
전체확률의 정리에 따라 $P(S) = P(S|C)P(C) + P(S|\neg C)P(\neg C) = \left( 1 \times \cfrac{1}{100,000} \right) + \left ( \cfrac{10}{99,999} \times \cfrac{99,999}{100,000} \right) = \cfrac{11}{100,000}$
따라서 $P(C|S) = \cfrac{1 \times \cfrac{1}{100,000}}{\cfrac{11}{100,000}} = \cfrac{1}{11} \approx 9.1\text{%}$
(즉, 증상이 있는 사람들 중 90.9%는 양성이 아닌데(암이 아닌데) 양성 판정을 받을 것이다.)
베이즈 정리의 확장
$A$가 $n$개의 partition으로 나뉘어있다고 하자.($A_i \cap A_j = \varnothing$ 이고 $\bigcup A_i = 1$) 이때 전체확률의 법칙에 따라 $P(B) = \sum_j P(B|A_j)P(A_j)$이므로 $i$번째 사건 $A_i$에 대해 적용하면
\[ P(A_i|B) = \cfrac{P(B|A_i)P(A_i)}{\sum_{j=1}^{n} P(B | A_j) P(A_j)} \]
$B$가 주어졌을 때, $A$의 partition 중에서 어떤 partition(예를 들어 $i$번째 partition인 $A_i$)의 확률을 구할 수 있다고 해석할 수 있다.
이를 이용하여 multi-class classification에서 유용하게 사용된다.
Naive Bayes Classifier
$K$개의 클래스가 있고 $n$개의 서로 독립인 feature를 이용하여 클래스를 분류한다고 하자. 즉
$mathbf{x} = (x_1, \dots , x_n)$ 가 $n$개의 독립인 feature를 갖는 instance라 하자. 이런 인스턴스 $\mathbf{x}$가 주어졌을 때 클래스 $k$일 확률은
\[ p(C_k | \mathbf{x}) = \cfrac{p(C_k) p(\mathbf{x} | C_k) }{p(\mathbf{x})} \]
어차피 분모의 값은 상수로 고정되어있으므로
\[ p(C_k | x_1, \dots , x_n) \propto p(C_k) \displaystyle \prod_{i=1}^{n}p(x_i | C_k) \]
이를 이용하여 Classifier를 만들면
\[ \hat{y} = \underset{k \in \{1, \dots , K \} }{\mathrm{argmax}} \ p(C_k) \prod_{i=1}^{n} p(x_i | C_k) \]
확률분포에 따라(e.g. 정규분포, 베르누이 분포) $p(C_k)$를 이용하여 계산할 수 있다.
Example2: Person Classification
8명의 데이터가 있다고 하자.
Person | height (feet) | weight (lbs) | foot size (inches) |
Male | 6 | 180 | 12 |
Male | 5.92 | 190 | 11 |
Male | 5.58 | 170 | 12 |
Male | 5.92 | 165 | 10 |
Female | 5 | 100 | 6 |
Female | 5.5 | 150 | 8 |
Female | 5.42 | 130 | 7 |
Female | 5.75 | 150 | 9 |
classifier는 Gaussian distribution을 따른다고 가정하자.
Person | mean(height) | variance(height) | mean(weight) | variance(weight) | mean(foot size) | variance(foot size) |
male | 5.855 | 3.5033 × 10−2 | 176.25 | 1.2292 × 102 | 11.25 | 9.1667 × 10−1 |
female | 5.4175 | 9.7225 × 10−2 | 132.5 | 5.5833 × 102 | 7.5 | 1.6667 |
이제 아래와 같은 instance가 주어졌을 때, 이 사람의 성별을 분류해보자.
Person | height (feet) | weight (lbs) | foot size (inches) |
??? | 6 | 130 | 8 |
예를 들어
\[ p(\text{height} | \text{male}) = \cfrac{1}{\sqrt{2 \pi \sigma^2}} \text{exp} \left( \cfrac{-(6 - \mu)^2}{2 \sigma^2} \right) \approx 1.5789 \]
를 계산할 때는 $\mu = 5.855, \ \sigma^2 = 3.5033 \times 10^{-2}$를 대입한다.
계산 생략하고 결과만 보면
$P(\text{male})=6.1984 \times 10^{-9}, \ P(\text{Female}) = 5.3778 \times 10^{-4}$이므로 Female일 확률이 가장 크다.
'스터디 > 확률과 통계' 카테고리의 다른 글
Ch1. Probability Models (0) | 2023.03.04 |
---|---|
[확률] 생일문제 (0) | 2023.03.02 |
Chapter 10. Hypothesis Testing (0) | 2022.08.24 |
Chapter 9. Properties of Point Estimators and Methods of Estimation (0) | 2022.08.13 |
Chapter 8. Estimation (0) | 2022.08.05 |