[확률] 베이즈 정리 (Bayes' theorem)

728x90

베이즈 정리에 필요한 notation을 먼저 정리하고 가자.

결합 확률 (joint probability)

사건 $A$와 사건 $B$가 동시에(함께) 발생할 확률을 결합확률이라 하고 $P(A, \ B)$로 나타낸다.

고등학교 수학에서는 $P(A \cap B)$로 나타내기도 하며 정확히 $P(X=x, Y=y)$로 정확히 표기하기도 한다.

조건부확률 (conditional probability)

사건 $B$가 일어났을 때(이런 사실이 알려졌을 때) 사건 $A$가 발생할 확률을 조건부 확률이라 하고 $P(A | B)$로 나타낸다.

확률의 곱셈정리 (multiplication theorem)

결합확률과 조건부확률은 아래와 같은 관계가 성립한다.

\[ P(A, \ B) = P(A | B)P(B) \]

전체 확률의 법칙 (the law of total probability)

표본공간의 부분집합 $B$를 $n$개의 partition으로 나누고 각각의 partition을 $B_i$라 하자. (즉 $B_i \cap B_j = \varnothing$)

이 때 사건 $A$의 확률 $P(A)$는 다음과 같다.

\[ P(A) = \sum_n P(A \cap B_n) = \sum_n P(A | B_n) P(B_n) \]

확률의 덧셈정리

사건 $A$와 사건 $B$ 중 적어도 한쪽이 일어나는 사건을 합사건(sum event)라고 하고, $A \cup B$로 나타낸다. 그리고 사건 $A$와 $B$가 모두 일어나는 사건을 곱사건(product event)라 하고 $A \cap B$로 나타낸다. 이때 합사건의 확률을 구하려면 아래의 덧셈정리를 만족한다.

\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

주변확률(marginal probability)와 확률의 주변화(marginalization)

결합확률에서 어떤 변수 하나에 대한 확률을 계산하는 방법이다. 주목하지 않는 변수를 주변화한다고 한다. $X$에 주목한다면 $X$가 아닌 변수들을 주변화하여 $P(X)$를 구한다.

\[ P_X(x_i) = \sum_jp(x_i, y_j) \ \text{and} \ P_Y(y_j)=\sum_ip(x_i, y_j) \]

이를 다변수 확률분포로 일반화하여 $n$변수 중에서 $k$번째 확률만 구할 때 나머지 변수들을 주변화한다.

이산적인 경우

\[ p_{X_i}(k) = \sum p(x_1, x_2, \dots , x_{i-1}, k, x_{i+1}, \dots ,x_n) \]

연속확률분포의 경우

\[ f_{X_i}(x_i) = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty}f(x_1, x_2, \dots , x_n) dx_1 dx_2 \cdots dx_{i-1} dx_{i+1} \cdots dx_n \]

이다.

이렇게 다른 변수들을 주변화하여 얻은 확률 $P(X)$를 주변확률이라 한다.

베이즈 정리 (Bayes' theorem)

\[ P(A | B) = \cfrac{P(B | A) P(A)}{P(B)} \text{,} \ P(B) \neq 0 \]

이때 $P(A)$와 $P(B)$는 사전확률(prior probability) 혹은 주변확률(marginal probability)이라 부르고, $P(A | B)$는 사후확률(posterior probability), $P(B|A)$는 우도(likelihood)라고 한다.

우도(likelihood)라 하는 이유는

해석하자면, 사건 $B$가 발생하기 전에 $P(A)$의 확률을 갖고 있었는데, 사건 $B$가 발생하여 이 정보를 반영하여 $P(A | B)$로 확률이 변한다. 그래서 사후확률이라고 부른다. (새로운 정보 $B$가 기존 $A$를 추론하는데 영향을 준다.)

일반적으로 베이즈 정리에서는 $A$, $B$ 대신에 $H$, $E$로 표기한다. 이는 각각 가설과 증거의 앞글자를 따온 것이다. 이러면 새로운 증거 $E$가 추가되었을 때, 나의 가설 $H$의 확률이 변할 것이다.

\[ P(H|E) =P(H) \times \cfrac{P(E | H)}{P(E)} \]

Example1: Cancer rate

암 환자들이 100% 특정 공통 증상이 있다 하더라고, 그러한 증상이 있다 해서 항상 암인 것은 아니다.

어떤 암이 발병률이 1/10만 이라 가정하고 10/99999 건강한 사람들이 같은 증상을 갖는다고 하자. 이때 위의 증상이 있을 경우 이 사람이 실제로 암환자일 확률은 얼마인가?

암(Cancer) 발생 확률과 증상(Symptoms) 확률을 각각 $P(C),\ P(S)$라 하자. 그러면

$P(S|C) = 1, \ P(C) = \cfrac{1}{100000},\ P(S) = \cfrac{10}{99999}$ 을 바탕으로 $P(C|S)$를 구하는 문제가 된다.

따라서 $P(C | S)$를 구하면

\[ P(C|S) = \cfrac{P(S|C) P(C)}{P(S)} \]

전체확률의 정리에 따라 $P(S) = P(S|C)P(C) + P(S|\neg C)P(\neg C) = \left( 1 \times \cfrac{1}{100,000} \right) + \left ( \cfrac{10}{99,999} \times \cfrac{99,999}{100,000} \right) = \cfrac{11}{100,000}$

따라서 $P(C|S) = \cfrac{1 \times \cfrac{1}{100,000}}{\cfrac{11}{100,000}} = \cfrac{1}{11} \approx 9.1\text{%}$

(즉, 증상이 있는 사람들 중 90.9%는 양성이 아닌데(암이 아닌데) 양성 판정을 받을 것이다.)

베이즈 정리의 확장

$A$가 $n$개의 partition으로 나뉘어있다고 하자.($A_i \cap A_j = \varnothing$ 이고 $\bigcup A_i = 1$) 이때 전체확률의 법칙에 따라 $P(B) = \sum_j P(B|A_j)P(A_j)$이므로 $i$번째 사건 $A_i$에 대해 적용하면

\[ P(A_i|B) = \cfrac{P(B|A_i)P(A_i)}{\sum_{j=1}^{n} P(B | A_j) P(A_j)} \]

$B$가 주어졌을 때, $A$의 partition 중에서 어떤 partition(예를 들어 $i$번째 partition인 $A_i$)의 확률을 구할 수 있다고 해석할 수 있다.

이를 이용하여 multi-class classification에서 유용하게 사용된다.

Naive Bayes Classifier

$K$개의 클래스가 있고 $n$개의 서로 독립인 feature를 이용하여 클래스를 분류한다고 하자. 즉

$mathbf{x} = (x_1, \dots , x_n)$ 가 $n$개의 독립인 feature를 갖는 instance라 하자. 이런 인스턴스 $\mathbf{x}$가 주어졌을 때 클래스 $k$일 확률은

\[ p(C_k | \mathbf{x}) = \cfrac{p(C_k) p(\mathbf{x} | C_k) }{p(\mathbf{x})} \]

어차피 분모의 값은 상수로 고정되어있으므로

\[ p(C_k | x_1, \dots , x_n) \propto p(C_k) \displaystyle \prod_{i=1}^{n}p(x_i | C_k) \]

이를 이용하여 Classifier를 만들면

\[ \hat{y} = \underset{k \in \{1, \dots , K \} }{\mathrm{argmax}} \ p(C_k) \prod_{i=1}^{n} p(x_i | C_k) \]

확률분포에 따라(e.g. 정규분포, 베르누이 분포) $p(C_k)$를 이용하여 계산할 수 있다.

Example2: Person Classification

8명의 데이터가 있다고 하자.

Person	height (feet)	weight (lbs)	foot size (inches)
Male	6	180	12
Male	5.92	190	11
Male	5.58	170	12
Male	5.92	165	10
Female	5	100	6
Female	5.5	150	8
Female	5.42	130	7
Female	5.75	150	9

classifier는 Gaussian distribution을 따른다고 가정하자.

Person	mean(height)	variance(height)	mean(weight)	variance(weight)	mean(foot size)	variance(foot size)
male	5.855	3.5033 × 10−2	176.25	1.2292 × 102	11.25	9.1667 × 10−1
female	5.4175	9.7225 × 10−2	132.5	5.5833 × 102	7.5	1.6667

이제 아래와 같은 instance가 주어졌을 때, 이 사람의 성별을 분류해보자.

Person	height (feet)	weight (lbs)	foot size (inches)
???	6	130	8

예를 들어

\[ p(\text{height} | \text{male}) = \cfrac{1}{\sqrt{2 \pi \sigma^2}} \text{exp} \left( \cfrac{-(6 - \mu)^2}{2 \sigma^2} \right) \approx 1.5789 \]

를 계산할 때는 $\mu = 5.855, \ \sigma^2 = 3.5033 \times 10^{-2}$를 대입한다.

계산 생략하고 결과만 보면

$P(\text{male})=6.1984 \times 10^{-9}, \ P(\text{Female}) = 5.3778 \times 10^{-4}$이므로 Female일 확률이 가장 크다.

728x90

'스터디 > 확률과 통계' 카테고리의 다른 글

Ch1. Probability Models (0)	2023.03.04
[확률] 생일문제 (0)	2023.03.02
Chapter 10. Hypothesis Testing (0)	2022.08.24
Chapter 9. Properties of Point Estimators and Methods of Estimation (0)	2022.08.13
Chapter 8. Estimation (0)	2022.08.05

궁금한게많은joon

[확률] 베이즈 정리 (Bayes' theorem)

'스터디 > 확률과 통계' 카테고리의 다른 글

티스토리툴바

[확률] 베이즈 정리 (Bayes' theorem)

'스터디 > 확률과 통계' 카테고리의 다른 글

관련글

티스토리툴바