Discrete Data Analysis: Population Proportion
1.1 모비율의 추정 (Inferences on a Population Proportion)
parameter $p$가 모집단의 비율(모비율)이라 하자.
모집단에서 $n$개의 관찰에 대한 무작위 표본을 얻은 경우, 각 관찰은 성공확률이 $p$인 베르누이 분포를 따른다. 따라서 성공횟수 $X$는 파라미터가 $n$과 $p$인 이항분포를 따른다. ($X \sim Bin(n, p)$)
전체 모집단에서 $n$개의 샘플을 얻고, 우리가 보고 싶은 특성이 있는/없는 두 범주(category)로 분리할 수 있다.
각 샘플이 특성이 있는 확률이 $p$라 하고 전체 샘플 수를 $x$라 하자.
sample proportion의 point estimation은 $\hat{p} = \frac{x}{n}$이고 기댓값과 분산은 각각 $E(\hat{p})=p$, $Var(\hat{p})=\frac{p(1-p)}{n}$이므로 충분히 큰 샘플 사이즈의 경우 $\hat{p}$는 정규분포에 근사한다.
\[ \hat{p} \sim N \left(p, \frac{p(1-p)}{n} \right) \]
따라서
\[ \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1) \]
※ $np$와 $n(1-p)$ 모두 $5$보다 크면 정규분포에 근사한다.
※ 같은 의미로 $x$와 $n-x$ 모두 $5$보다 크면 정규분포에 근사한다.
1.2 모비율의 신뢰구간 (Confidence Intervals for Population Proportions)
Two-sided Confidence Intervals
$Z \sim N(0, 1)$에서 $P(-z_{\alpha/2} \le Z \le z_{\alpha/2})=1-\alpha임을 이용한다.
표본비율 역시 $N(0, 1)$을 따르므로 $Z$대신에 대입하여 $p$에 대하여 정리하면
\[ P\left( \hat{p} - z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}} \le p \le \hat{p} + z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}} \right) \]
즉, 모비율은 다음의 신뢰구간을 갖는다.
\[ p \in \left(\hat{p} \pm z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}} \right) \]
$\hat{p}$의 standard error는 $p$대신 $\hat{p} = n/x$를 대입하여 신뢰구간은 다음과 같다.
\[ p \in \left( \hat{p} \pm \frac{z_{\alpha/2}}{n} \sqrt{\frac{x(n-x)}{n}} \right) \]
One-sided Confidence Intervals
모비율의 경우 최솟값이 $0$이고, 최댓값이 $1$이므로 끝점에 대해 약간 수정이 필요하다.
lower bound의 경우
\[ p \in \left( \hat{p} - z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, 1 \right) \Leftrightarrow \left( \hat{p} - \frac{z_{\alpha}}{n} \sqrt{\frac{x(n-x)}{n}} ,1\right) \]
upper bound의 경우
\[ p \in \left(0, \hat{p} + z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right) \Leftrightarrow \left(0, \hat{p} + \frac{z_{\alpha}}{n} \sqrt{\frac{x(n-x)}{n}} \right) \]
2.1 모비율의 검정 (Hypothesis Tests on a Population Proportion)
표본비율이 정규분포를 따르므로, z-test를 활용한다.
- two-sided hypothesis testing
- $H_0: p=p_0 \text{ vs. } H_A: p \neq p_0$
- 정규분포 근사 안할 경우 (exact p-value)
- $X \sim Bin(n, p_0)$
- p-value = $2 \times P(X \ge x)$ if $\hat{p} > p_0$
- p-value = $2 \times P(X \le x)$ if $\hat{p} < p_0$
- 정규분포로 근사할 경우 (normal approximation)
- z-statistic $z = \cfrac{\hat{p} - p_0}{\sqrt{\cfrac{p_0(1-p_0)}{n}}}=\cfrac{x-np_0}{np_0(1-p_0)}$
- (continuity correction) $z = \cfrac{x - np_p -0.5}{\sqrt{np_0(1-p_0)}}$ if $x - np_0 > 0.5$
- (continuity correction) $z = \cfrac{x - np_p +0.5}{\sqrt{np_0(1-p_0)}}$ if $x - np_0 < -0.5$
- p-value = $2 \times \Phi(-|z|)$
- rejection region: $|z| > z_{\alpha / 2}$
- one-sided hypothesis testing
- $H_0: p \ge p_0 \text{ vs. } H_A: p < p_0$
- exact version
- $X \sim Bin(n, p_0)$
- p-value = $P(X \le x)$ (No $2 \times$)
- normal approximation version
- $z = \cfrac{x - np_0 + 0.5}{\sqrt{np_0(1-p_0)}}$
- p-value = $\Phi(z)$
- rejection region: $z < -z_{\alpha}$
- one-sided hypothesis testing
- $H_0: p \le p_0 \text{ vs. } H_A: p > p_0$
- exact version
- $X \sim Bin(n, p_0)$
- p-value = $P(X \ge x)$
- normal approximation
- $z = \cfrac{x - np_0 - 0.5}{\sqrt{np_0(1-p_0)}} $
- p-value = $1-\Phi(z)$
- rejection region: $z > z_{\alpha}$
2.2 Sample Size Calculations
confidence level이 $1-\alpha$일 때, 신뢰구간의 길이(confidence interval length) $L$은 다음과 같다.
\[ L = 2 z_{\alpha/2} \sqrt{\frac{\hat{p} (1-\hat{p})}{n}} \]
따라서 길이가 $L$인 신뢰구간을 얻기 위한 sample size는 다음과 같다. (정수임에 유의)
\[ n = \cfrac{4 z_{\alpha/2}^2 \hat{p}(1-\hat{p})}{L^2} \]
※ $n$이 커지면 $L$이 작아진다.
문제는 우리는 $\hat{p}(1-\hat{p})$의 값을 모른다는 것이다.
그러나 $p(1-p)$의 그래프는 위로 볼록한 이차함수이므로 $\hat{p}=1/2$에서 최댓값 $1/4$를 갖는다.
따라서 required sample size는 $n = \cfrac{z_{\alpha/2}^2}{L^2}$이다.
사전 정보(prior information, knowledge)를 통해 $p$의 범위를 찾을 수 있다.
이때 $p(1-p)$가 최대가 되는 $p$를 $p*$를 대신하여 사용할 수 있다.
\[ n \simeq \cfrac{4 z_{\alpha/2}^2 p^* (1-p^*) }{L^2} \]
3.1 Two Population Proprtions
두 모집단 A, B의 모비율을 $p_A$, $p_B$라 하자.
각 모집단에서 추출한 표본을 $X$, $Y$라 하고(독립이다) 표본 크기를 $n$, $m$이라 하면
\[ X \sim Bin(n, p_A) \quad Y \sim Bin(m, p_B) \]
두 모비율의 point estimator는 $\hat{p}_A = \frac{x}{n}$, $\hat{p}_B = \frac{y}{m}$이므로 두 모비율의 차에 대한 점추정량은 $\hat{p}_A - \hat{p}_B = \frac{x}{n} - \frac{y}{m}$ 이다. 따라서 분산은
\[ Var(\hat{p}_A - \hat{p}_B) = Var(\hat{p}_A) + Var(\hat{p}_B) = \frac{p_A(1-p_A)}{n} + \frac{p_B(1-p_B)}{m} \]
sample size가 충분히 크면 표준정규분포에 근사한다. 따라서 z-statistic은 다음과 같다.
\[ z = \frac{(\hat{p}_A - \hat{p}_B) - (p_A - p_B)}{\sqrt{ \frac{\hat{p}_A(1-\hat{p}_A)}{n} + \frac{\hat{p}_B(1-\hat{p}_B)}{m} }} = \frac{ (\hat{p}_A - \hat{p}_B) - (p_A - p_B) }{ \cfrac{x(n-x)}{n^3} + \cfrac{y(m-y)}{m^3} } \]
$H_0: p_A = p_B$의 경우, pooled estimate는 $\hat{p} = \cfrac{x+y}{n+m}$ 이다.
이 경우, z-statistic은 다음과 같다.
\[ z = \cfrac{\hat{p}_A - \hat{p}_B}{\sqrt{ \hat{p} (1-\hat{p}) \left(\frac{1}{n} + \frac{1}{m} \right)}} \]
3.2 두 모비율의 차의 신뢰구간 (Confidence Intervals for the Difference between Two Population Proportions)
독립인 두 확률변수 $X \sim Bin(n, p_A)$, $Y \sim Bin(m, p_B)$에 대하여 $1-\alpha$의 신뢰구간을 구해보자.
$\hat{p}_A = x/n$, $\hat{p}_B = y/m$임을 standard error 항에 대입한다.
two-sided confidence interval
\begin{align} p_A - p_B &\in \left(\hat{p}_A - \hat{p}_B \pm z_{\alpha/2} \sqrt{\frac{\hat{p}_A (1-\hat{p}_A)}{n} + \frac{\hat{p}_B (1-\hat{p}_B)}{m} } \right) \\ &= \left( \hat{p}_A - \hat{p}_B \pm z_{\alpha/2} \sqrt{\frac{x(n-x)}{n^3} + \frac{y(m-y)}{m^3}} \right) \end{align}
one-sided confidence interval (lower bound)
\begin{align} p_A - p_B &\in \left(\hat{p}_A - \hat{p}_B - z_{\alpha} \sqrt{\frac{\hat{p}_A (1-\hat{p}_A)}{n} + \frac{\hat{p}_B (1-\hat{p}_B)}{m} }, 1 \right) \\ &= \left( \hat{p}_A - \hat{p}_B - z_{\alpha} \sqrt{\frac{x(n-x)}{n^3} + \frac{y(m-y)}{m^3}} , 1 \right) \end{align}
one-sided confidence interval (upper bound)
\begin{align} p_A - p_B &\in \left(0, \hat{p}_A - \hat{p}_B + z_{\alpha} \sqrt{\frac{\hat{p}_A (1-\hat{p}_A)}{n} + \frac{\hat{p}_B (1-\hat{p}_B)}{m} } \right) \\ &= \left(0, \hat{p}_A - \hat{p}_B + z_{\alpha} \sqrt{\frac{x(n-x)}{n^3} + \frac{y(m-y)}{m^3}} \right) \end{align}
3.3 두 모비율의 차의 검정 (Hypothesis Tests on the Difference between Two Population Proportions)
null hypothesis에서 두 모집단의 모비율이 같으므로, pooled probability를 사용한다.
\[ \hat{p} = \cfrac{x+y}{n+m} \]
따라서 검정통계량 z-statistic 역시 다음과 같다.
\[ z = \cfrac{\hat{p}_A - \hat{p}_B}{\sqrt{ \hat{p} (1-\hat{p}) \left( \frac{1}{n} + \frac{1}{m} \right) }} \]
- two-sided hypothesis ($H_0: p_A = p_B \text{ vs. } H_A: p_A \neq p_B$)
- p-value = $2 \times \Phi(-|z|)$
- rejection region: $|z| > z_{\alpha/2}$
- one-sided hypothesis ($H_0: p_A - p_B \ge 0 \text{ vs. } H_A: p_A - p_B < 0$)
- p-value = $\Phi(z)$
- rejection region: $z < -z_{\alpha}$
- one-sided hypothesis ($H_0: p_A - p_B \le 0 \text{ vs. } H_A: p_A - p_B > 0$)
- p-value = $1- \Phi(z)$
- rejection region: $z > z_{\alpha}$