본문 바로가기
스터디/확률과 통계

[확률] 베이즈 정리 (Bayes' theorem)

by 궁금한 준이 2023. 2. 18.
728x90
반응형

 

베이즈 정리에 필요한 notation을 먼저 정리하고 가자.

 

결합 확률 (joint probability)

사건 A와 사건 B가 동시에(함께) 발생할 확률을 결합확률이라 하고 P(A, B)로 나타낸다.

고등학교 수학에서는 P(AB)로 나타내기도 하며 정확히 P(X=x,Y=y)로 정확히 표기하기도 한다.

 

 

조건부확률 (conditional probability)

사건 B가 일어났을 때(이런 사실이 알려졌을 때) 사건 A가 발생할 확률을 조건부 확률이라 하고 P(A|B)로 나타낸다. 

 

 

확률의 곱셈정리 (multiplication theorem)

결합확률과 조건부확률은 아래와 같은 관계가 성립한다.

P(A, B)=P(A|B)P(B)

 

 

전체 확률의 법칙 (the law of total probability)

표본공간의 부분집합 Bn개의 partition으로 나누고 각각의 partition을 Bi라 하자. (즉 BiBj=)

이 때 사건 A의 확률 P(A)는 다음과 같다.

P(A)=nP(ABn)=nP(A|Bn)P(Bn)

 

 

확률의 덧셈정리

사건 A와 사건 B 중 적어도 한쪽이 일어나는 사건을 합사건(sum event)라고 하고, AB로 나타낸다. 그리고 사건 AB가 모두 일어나는 사건을 곱사건(product event)라 하고 AB로 나타낸다. 이때 합사건의 확률을 구하려면 아래의 덧셈정리를 만족한다.

P(AB)=P(A)+P(B)P(AB)

 

 

주변확률(marginal probability)와 확률의 주변화(marginalization)

결합확률에서 어떤 변수 하나에 대한 확률을 계산하는 방법이다. 주목하지 않는 변수를 주변화한다고 한다. X에 주목한다면 X가 아닌 변수들을 주변화하여 P(X)를 구한다.

PX(xi)=jp(xi,yj) and PY(yj)=ip(xi,yj)

 

이를 다변수 확률분포로 일반화하여 n변수 중에서 k번째 확률만 구할 때 나머지 변수들을 주변화한다. 

이산적인 경우

pXi(k)=p(x1,x2,,xi1,k,xi+1,,xn)

연속확률분포의 경우

fXi(xi)=f(x1,x2,,xn)dx1dx2dxi1dxi+1dxn

이다.

 

이렇게 다른 변수들을 주변화하여 얻은 확률 P(X)를 주변확률이라 한다.

 

 

베이즈 정리 (Bayes' theorem)

P(A|B)=P(B|A)P(A)P(B), P(B)0

이때 P(A)P(B)는 사전확률(prior probability) 혹은 주변확률(marginal probability)이라 부르고, P(A|B)는 사후확률(posterior probability), P(B|A)는 우도(likelihood)라고 한다.

우도(likelihood)라 하는 이유는 

 

해석하자면, 사건 B가 발생하기 전에 P(A)의 확률을 갖고 있었는데, 사건 B가 발생하여 이 정보를 반영하여 P(A|B)로 확률이 변한다. 그래서 사후확률이라고 부른다. (새로운 정보 B가 기존 A를 추론하는데 영향을 준다.)

 

일반적으로 베이즈 정리에서는 A, B 대신에 H, E로 표기한다. 이는 각각 가설과 증거의 앞글자를 따온 것이다. 이러면 새로운 증거 E가 추가되었을 때, 나의 가설 H의 확률이 변할 것이다.

P(H|E)=P(H)×P(E|H)P(E)

 

Example1: Cancer rate

암 환자들이 100% 특정 공통 증상이 있다 하더라고, 그러한 증상이 있다 해서 항상 암인 것은 아니다. 

어떤 암이 발병률이 1/10만 이라 가정하고 10/99999 건강한 사람들이 같은 증상을 갖는다고 하자. 이때 위의 증상이 있을 경우 이 사람이 실제로 암환자일 확률은 얼마인가?

 

암(Cancer) 발생 확률과 증상(Symptoms) 확률을 각각 P(C), P(S)라 하자. 그러면

P(S|C)=1, P(C)=1100000, P(S)=1099999 을 바탕으로 P(C|S)를 구하는 문제가 된다.

따라서 P(C|S)를 구하면

P(C|S)=P(S|C)P(C)P(S)

전체확률의 정리에 따라 P(S)=P(S|C)P(C)+P(S|¬C)P(¬C)=(1×1100,000)+(1099,999×99,999100,000)=11100,000

따라서 P(C|S)=1×1100,00011100,000=1119.1%

(즉, 증상이 있는 사람들 중 90.9%는 양성이 아닌데(암이 아닌데) 양성 판정을 받을 것이다.)

 

 

베이즈 정리의 확장

An개의 partition으로 나뉘어있다고 하자.(AiAj= 이고 Ai=1) 이때 전체확률의 법칙에 따라 P(B)=jP(B|Aj)P(Aj)이므로 i번째 사건 Ai에 대해 적용하면

P(Ai|B)=P(B|Ai)P(Ai)j=1nP(B|Aj)P(Aj)

B가 주어졌을 때, A의 partition 중에서 어떤 partition(예를 들어 i번째 partition인 Ai)의 확률을 구할 수 있다고 해석할 수 있다.

 

이를 이용하여 multi-class classification에서 유용하게 사용된다. 

 

Naive Bayes Classifier

K개의 클래스가 있고 n개의 서로 독립인 feature를 이용하여 클래스를 분류한다고 하자. 즉

mathbfx=(x1,,xn)n개의 독립인 feature를 갖는 instance라 하자. 이런 인스턴스 x가 주어졌을 때 클래스 k일 확률은

p(Ck|x)=p(Ck)p(x|Ck)p(x)

어차피 분모의 값은 상수로 고정되어있으므로

p(Ck|x1,,xn)p(Ck)i=1np(xi|Ck)

 

이를 이용하여 Classifier를 만들면

y^=argmaxk{1,,K} p(Ck)i=1np(xi|Ck)

 

확률분포에 따라(e.g. 정규분포, 베르누이 분포) p(Ck)를 이용하여 계산할 수 있다.

 

Example2: Person Classification

8명의 데이터가 있다고 하자.

Person height (feet) weight (lbs) foot size (inches)
Male 6 180 12
Male 5.92 190 11
Male 5.58 170 12
Male 5.92 165 10
Female 5 100 6
Female 5.5 150 8
Female 5.42 130 7
Female 5.75 150 9

 

classifier는 Gaussian distribution을 따른다고 가정하자. 

Person mean(height) variance(height) mean(weight) variance(weight) mean(foot size) variance(foot size)
male 5.855 3.5033 × 10−2 176.25 1.2292 × 102 11.25 9.1667 × 10−1
female 5.4175 9.7225 × 10−2 132.5 5.5833 × 102 7.5 1.6667

 

 

이제 아래와 같은 instance가 주어졌을 때, 이 사람의 성별을 분류해보자.

Person height (feet) weight (lbs) foot size (inches)
??? 6 130 8

 

예를 들어

p(height|male)=12πσ2exp((6μ)22σ2)1.5789

를 계산할 때는 μ=5.855, σ2=3.5033×102를 대입한다.

계산 생략하고 결과만 보면

P(male)=6.1984×109, P(Female)=5.3778×104이므로 Female일 확률이 가장 크다.

728x90
반응형

'스터디 > 확률과 통계' 카테고리의 다른 글

Ch1. Probability Models  (0) 2023.03.04
[확률] 생일문제  (0) 2023.03.02
Chapter 10. Hypothesis Testing  (0) 2022.08.24
Chapter 9. Properties of Point Estimators and Methods of Estimation  (0) 2022.08.13
Chapter 8. Estimation  (0) 2022.08.05