본문 바로가기
스터디/확률과 통계

다항분포, Multinomial Distribution

by 궁금한 준이 2023. 3. 23.
728x90
반응형

 

Multinomial Distribution, 다항분포

categorical variable에 대한 모델링에 유용한 분포다.

 

$k$개의 범주(category)가 있고, $s$개의 반응(response)에 대하여 $P(s=i)=\theta_i$로 표기할 수 있다.

$X_i$는 $n$개의 반응(response) 중에서 $s=i$인 반응의 개수이다.

 

$(X_1, X_2, \dots, X_n) \sim \text{Multinomial}(n, \theta_1, \theta_2, \dots, \theta_k)$ 

\[ p(x, \dots, x_n) = \dbinom{n}{x_1\dots x_k}\theta_1^{x_1} \cdots \theta_k^{x_k} = \cfrac{n!}{x_1! \times \cdots \times x_k!} \theta_1^{x_1} \cdots \theta_k^{x_k} \]

단, $\sum_{i}x_i = n, \ \sum_{i}\theta_i = 1$

 

단 하나의 확률변수 $X_i$의 관점으로는 $X_i \sim \text{Binomial}(n, \theta_i)$ 이다.

 

Example

어떤 대학교 학생의 거주지를 자취, 통학, 기숙사의 비율이 각각 30%, 40%, 30%라고 한다. 

10명의 학생을 설문조사했을 때, 자취, 통학, 기숙사 거주하는 학생 수를 각각 $X_1, X_2, X_3$라 하자.

이때의 pmf는

\[ p(x_1, x_2, x_3) = \cfrac{10!}{x_1! x_2! x_3!}(0.3)^{x_1} (0.4)^{x_2} (0.3)^{x_3} \quad x_1 + x_2 + x_3 = 10 \]

(1) $X_1$의 marginal distribution은? $X_1 \sim B(10, -.3)$

(2) $X_1 | X_3=2$의 분포는? $B(10-2, 0.3/(1-0.3)) = B(8, 0.3/0.7)$

 

일반적으로 다항분호에서 다음이 성립한다.

(1) $X_i \sim B(n, \theta_i)$

(2) $X_i | X_j \sim B(n - x_j, \cfrac{\theta_i}{1-\theta_j})$

728x90
반응형