Multinomial Distribution, 다항분포
categorical variable에 대한 모델링에 유용한 분포다.
$k$개의 범주(category)가 있고, $s$개의 반응(response)에 대하여 $P(s=i)=\theta_i$로 표기할 수 있다.
$X_i$는 $n$개의 반응(response) 중에서 $s=i$인 반응의 개수이다.
$(X_1, X_2, \dots, X_n) \sim \text{Multinomial}(n, \theta_1, \theta_2, \dots, \theta_k)$
\[ p(x, \dots, x_n) = \dbinom{n}{x_1\dots x_k}\theta_1^{x_1} \cdots \theta_k^{x_k} = \cfrac{n!}{x_1! \times \cdots \times x_k!} \theta_1^{x_1} \cdots \theta_k^{x_k} \]
단, $\sum_{i}x_i = n, \ \sum_{i}\theta_i = 1$
단 하나의 확률변수 $X_i$의 관점으로는 $X_i \sim \text{Binomial}(n, \theta_i)$ 이다.
Example
어떤 대학교 학생의 거주지를 자취, 통학, 기숙사의 비율이 각각 30%, 40%, 30%라고 한다.
10명의 학생을 설문조사했을 때, 자취, 통학, 기숙사 거주하는 학생 수를 각각 $X_1, X_2, X_3$라 하자.
이때의 pmf는
\[ p(x_1, x_2, x_3) = \cfrac{10!}{x_1! x_2! x_3!}(0.3)^{x_1} (0.4)^{x_2} (0.3)^{x_3} \quad x_1 + x_2 + x_3 = 10 \]
(1) $X_1$의 marginal distribution은? $X_1 \sim B(10, -.3)$
(2) $X_1 | X_3=2$의 분포는? $B(10-2, 0.3/(1-0.3)) = B(8, 0.3/0.7)$
일반적으로 다항분호에서 다음이 성립한다.
(1) $X_i \sim B(n, \theta_i)$
(2) $X_i | X_j \sim B(n - x_j, \cfrac{\theta_i}{1-\theta_j})$
'스터디 > 확률과 통계' 카테고리의 다른 글
Order Statistics, 순서통계량 (0) | 2023.03.29 |
---|---|
이산확률변수의 기댓값, Expectation of Discrete Case (Bernoulli, Binomial, Geometric, Poisson) (0) | 2023.03.29 |
조건부확률과 독립 (Conditioning, Independence) (0) | 2023.03.23 |
결합확률분포, Joint Distribution (0) | 2023.03.23 |
확률변수의 변환, Change of Variable (0) | 2023.03.21 |