본문 바로가기
스터디/확률과 통계

[확률] 베이즈 정리 (Bayes' theorem)

by 궁금한 준이 2023. 2. 18.
728x90
반응형

베이즈 정리에 필요한 notation을 먼저 정리하고 가자.

 

결합 확률 (joint probability)

사건 $A$와 사건 $B$가 동시에(함께) 발생할 확률을 결합확률이라 하고 $P(A, \ B)$로 나타낸다.

고등학교 수학에서는 $P(A \cap B)$로 나타내기도 하며 정확히 $P(X=x, Y=y)$로 정확히 표기하기도 한다.

 

 

조건부확률 (conditional probability)

사건 $B$가 일어났을 때(이런 사실이 알려졌을 때) 사건 $A$가 발생할 확률을 조건부 확률이라 하고 $P(A | B)$로 나타낸다. 

 

 

확률의 곱셈정리 (multiplication theorem)

결합확률과 조건부확률은 아래와 같은 관계가 성립한다.

\[ P(A, \ B) = P(A | B)P(B) \]

 

 

전체 확률의 법칙 (the law of total probability)

표본공간의 부분집합 $B$를 $n$개의 partition으로 나누고 각각의 partition을 $B_i$라 하자. (즉 $B_i \cap B_j = \varnothing$)

이 때 사건 $A$의 확률 $P(A)$는 다음과 같다.

\[ P(A) = \sum_n P(A \cap B_n) = \sum_n P(A | B_n) P(B_n) \]

 

 

확률의 덧셈정리

사건 $A$와 사건 $B$ 중 적어도 한쪽이 일어나는 사건을 합사건(sum event)라고 하고, $A \cup B$로 나타낸다. 그리고 사건 $A$와 $B$가 모두 일어나는 사건을 곱사건(product event)라 하고 $A \cap B$로 나타낸다. 이때 합사건의 확률을 구하려면 아래의 덧셈정리를 만족한다.

\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

 

 

주변확률(marginal probability)와 확률의 주변화(marginalization)

결합확률에서 어떤 변수 하나에 대한 확률을 계산하는 방법이다. 주목하지 않는 변수를 주변화한다고 한다. $X$에 주목한다면 $X$가 아닌 변수들을 주변화하여 $P(X)$를 구한다.

\[ P_X(x_i) = \sum_jp(x_i,  y_j) \ \text{and} \ P_Y(y_j)=\sum_ip(x_i, y_j) \]

 

이를 다변수 확률분포로 일반화하여 $n$변수 중에서 $k$번째 확률만 구할 때 나머지 변수들을 주변화한다. 

이산적인 경우

\[ p_{X_i}(k) = \sum p(x_1, x_2, \dots , x_{i-1}, k, x_{i+1}, \dots ,x_n) \]

연속확률분포의 경우

\[ f_{X_i}(x_i) = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty}f(x_1, x_2, \dots , x_n) dx_1 dx_2 \cdots dx_{i-1} dx_{i+1} \cdots dx_n \]

이다.

 

이렇게 다른 변수들을 주변화하여 얻은 확률 $P(X)$를 주변확률이라 한다.

 

 

베이즈 정리 (Bayes' theorem)

\[ P(A | B) = \cfrac{P(B | A) P(A)}{P(B)} \text{,} \ P(B) \neq 0 \]

이때 $P(A)$와 $P(B)$는 사전확률(prior probability) 혹은 주변확률(marginal probability)이라 부르고, $P(A | B)$는 사후확률(posterior probability), $P(B|A)$는 우도(likelihood)라고 한다.

우도(likelihood)라 하는 이유는 

 

해석하자면, 사건 $B$가 발생하기 전에 $P(A)$의 확률을 갖고 있었는데, 사건 $B$가 발생하여 이 정보를 반영하여 $P(A | B)$로 확률이 변한다. 그래서 사후확률이라고 부른다. (새로운 정보 $B$가 기존 $A$를 추론하는데 영향을 준다.)

 

일반적으로 베이즈 정리에서는 $A$, $B$ 대신에 $H$, $E$로 표기한다. 이는 각각 가설과 증거의 앞글자를 따온 것이다. 이러면 새로운 증거 $E$가 추가되었을 때, 나의 가설 $H$의 확률이 변할 것이다.

\[ P(H|E) =P(H) \times \cfrac{P(E | H)}{P(E)} \]

 

Example1: Cancer rate

암 환자들이 100% 특정 공통 증상이 있다 하더라고, 그러한 증상이 있다 해서 항상 암인 것은 아니다. 

어떤 암이 발병률이 1/10만 이라 가정하고 10/99999 건강한 사람들이 같은 증상을 갖는다고 하자. 이때 위의 증상이 있을 경우 이 사람이 실제로 암환자일 확률은 얼마인가?

 

암(Cancer) 발생 확률과 증상(Symptoms) 확률을 각각 $P(C),\ P(S)$라 하자. 그러면

$P(S|C) = 1, \ P(C) = \cfrac{1}{100000},\ P(S) = \cfrac{10}{99999}$ 을 바탕으로 $P(C|S)$를 구하는 문제가 된다.

따라서 $P(C | S)$를 구하면

\[ P(C|S) = \cfrac{P(S|C) P(C)}{P(S)} \]

전체확률의 정리에 따라 $P(S) = P(S|C)P(C) + P(S|\neg C)P(\neg C) = \left( 1 \times \cfrac{1}{100,000}  \right) + \left ( \cfrac{10}{99,999} \times \cfrac{99,999}{100,000} \right) = \cfrac{11}{100,000}$

따라서 $P(C|S) = \cfrac{1 \times \cfrac{1}{100,000}}{\cfrac{11}{100,000}} = \cfrac{1}{11} \approx 9.1\text{%}$

(즉, 증상이 있는 사람들 중 90.9%는 양성이 아닌데(암이 아닌데) 양성 판정을 받을 것이다.)

 

 

베이즈 정리의 확장

$A$가 $n$개의 partition으로 나뉘어있다고 하자.($A_i \cap A_j = \varnothing$ 이고 $\bigcup A_i = 1$) 이때 전체확률의 법칙에 따라 $P(B) = \sum_j P(B|A_j)P(A_j)$이므로 $i$번째 사건 $A_i$에 대해 적용하면

\[ P(A_i|B) = \cfrac{P(B|A_i)P(A_i)}{\sum_{j=1}^{n} P(B | A_j) P(A_j)} \]

$B$가 주어졌을 때, $A$의 partition 중에서 어떤 partition(예를 들어 $i$번째 partition인 $A_i$)의 확률을 구할 수 있다고 해석할 수 있다.

 

이를 이용하여 multi-class classification에서 유용하게 사용된다. 

 

Naive Bayes Classifier

$K$개의 클래스가 있고 $n$개의 서로 독립인 feature를 이용하여 클래스를 분류한다고 하자. 즉

$mathbf{x} = (x_1, \dots , x_n)$ 가 $n$개의 독립인 feature를 갖는 instance라 하자. 이런 인스턴스 $\mathbf{x}$가 주어졌을 때 클래스 $k$일 확률은

\[ p(C_k | \mathbf{x}) = \cfrac{p(C_k) p(\mathbf{x} | C_k) }{p(\mathbf{x})} \]

어차피 분모의 값은 상수로 고정되어있으므로

\[ p(C_k | x_1, \dots , x_n) \propto p(C_k) \displaystyle \prod_{i=1}^{n}p(x_i | C_k) \]

 

이를 이용하여 Classifier를 만들면

\[ \hat{y} = \underset{k \in \{1, \dots , K \} }{\mathrm{argmax}} \ p(C_k) \prod_{i=1}^{n} p(x_i | C_k) \]

 

확률분포에 따라(e.g. 정규분포, 베르누이 분포) $p(C_k)$를 이용하여 계산할 수 있다.

 

Example2: Person Classification

8명의 데이터가 있다고 하자.

Person height (feet) weight (lbs) foot size (inches)
Male 6 180 12
Male 5.92 190 11
Male 5.58 170 12
Male 5.92 165 10
Female 5 100 6
Female 5.5 150 8
Female 5.42 130 7
Female 5.75 150 9

 

classifier는 Gaussian distribution을 따른다고 가정하자. 

Person mean(height) variance(height) mean(weight) variance(weight) mean(foot size) variance(foot size)
male 5.855 3.5033 × 10−2 176.25 1.2292 × 102 11.25 9.1667 × 10−1
female 5.4175 9.7225 × 10−2 132.5 5.5833 × 102 7.5 1.6667

 

 

이제 아래와 같은 instance가 주어졌을 때, 이 사람의 성별을 분류해보자.

Person height (feet) weight (lbs) foot size (inches)
??? 6 130 8

 

예를 들어

\[ p(\text{height} | \text{male}) = \cfrac{1}{\sqrt{2 \pi \sigma^2}} \text{exp} \left( \cfrac{-(6 - \mu)^2}{2 \sigma^2} \right) \approx 1.5789 \]

를 계산할 때는 $\mu = 5.855, \ \sigma^2 = 3.5033 \times 10^{-2}$를 대입한다.

계산 생략하고 결과만 보면

$P(\text{male})=6.1984 \times 10^{-9}, \ P(\text{Female}) = 5.3778 \times 10^{-4}$이므로 Female일 확률이 가장 크다.

728x90
반응형

'스터디 > 확률과 통계' 카테고리의 다른 글

Ch1. Probability Models  (0) 2023.03.04
[확률] 생일문제  (0) 2023.03.02
Chapter 10. Hypothesis Testing  (0) 2022.08.24
Chapter 9. Properties of Point Estimators and Methods of Estimation  (0) 2022.08.13
Chapter 8. Estimation  (0) 2022.08.05