본문 바로가기
스터디/확률과 통계

Testing Hypothesis and p-values

by 궁금한 준이 2023. 5. 25.
728x90
반응형

 

Testing Hypothesis and p-value

이론, 추측, 가설 등에서는 $\theta$의 값에 대하여 관심이 있다. (보통 $\theta$에 대한 함수로 표현 가능하고 교재에서 $\phi(\theta)$라고 한다.) 주로 

\[ H_0:\ \theta = \theta_0 \]

과 같이 표기하며 이를 null hypothesis라 한다. 이때 $\theta_0$는 데이터를 얻기 전에 어떤 값으로 특정되어야 한다.

 

이제 우위 $H_0$가 참일 때 관측된 데이터가 얼마나 unlikely한지 측정할 것이다. 

Note: $H_0$이 얼마나 likely한지 평가하는 것이 아니다. 얻은 데이터 $s$가 unlikely한지 평가하는 것이다.

만일 under $H_0$에서 데이터 $s$가 surprising하다면, 우리가 얻은 데이터 $s$는 $H_0$를 반박하는 증거가 될 것이다. 이러한 surprising을 측정하는 지표로 p-value가 이용된다.

작은 p-value는 $H_0$이 참일 때 데이터가 surprising event임을 나타낸다. (very unlikely thing is happen)

큰 p-value는 $H_0$가 참이라는 증거가 되지 못한다.

Note: p-value는 $H_0$가 참일 확률을 뜻하지 않는다. 

p-value on z-test

평균은 알려져 있지 않고 분산은 알려져 있는 정규분포 $N(\mu, \sigma_0^2)$에서 $n$개의 sample을 추출했다고 하자.

이때 어떤 theory가 $H_0: \mu = \mu_0$라고 한다.

$H_0$가 참일 때, $\overline{X} \sim N(\mu_0, \frac{\sigma_0^2}{n})$ 임을 알고있다.

이때 $\overline{x}$가 $\mu_0$와 얼마나 차이나는지(how far) 측정하는 지표는 무엇이 있을까?

대표적으로 꼬리부분에 대한 확률이 가능할 것이다.

\begin{align*} p-\text{value} &= P_{\mu_0}\left( |\overline{X} - \mu_0| \ge |\overline{x} - \mu_0| \right) \\ &= P_{\mu_0}\bigg( \left| \cfrac{\overline{X} - \mu_0}{\sigma_0 / \sqrt{n}} \right| \ge \left| \cfrac{\overline{x} - \mu_0}{\sigma_0 / \sqrt{n}} \right| \bigg) \\ &= 2 \left[ 1 - \Phi \left( \left| \cfrac{\overline{x}-\mu_0}{\sigma_0 / \sqrt{n}} \right| \right) \right] \end{align*}

Note: $\mu, \sigma$ 모두 알려져 있지 않다면 $t$-test를 통해 p-value를 구할 수 있다.
Note: Non-normal이라도 $n>30$이면 z-test를 이용할 수 있다.

 

p-value on Bernoulli

$(X_1, \dots, X_n) \sim Ber(\theta)$이고 $H_0: \theta = \theta_0$라 하자.

MLE로 얻은 $\hat{\theta} = \overline{X}$임을 알고 있다. 그리고 CLT에 의하여 $\cfrac{\sqrt{n}(\overline{X} - \theta_0)}{\sqrt{\theta_0 (1-\theta_0)}} \approx N(0, 1)$ 이므로

\[ P_{\theta_0}\left( |Z| \ge \left| \cfrac{\sqrt{n}(\overline{x} - \theta_0)}{\sqrt{\theta_0 (1 - \theta_0)}} \right| \right) \approx 2 \left[ 1 - \Phi\left( \left| \cfrac{\sqrt{n}(\overline{x} - \theta_0)}{\sqrt{\theta_0 (1 - \theta_0)}} \right| \right) \right] \]

이런식으로 $n$이 충분히 크면 p-value의 근삿값으로 구할 수 있다.

반응형

Inferences for the variance

특히 정규분포 $N(\mu, \sigma^2)$에서의 분산을 추정해보자.

아래 확률변수가 카이제곱분포를 따르는 것에서 시작한다.

\[ \cfrac{(n-1)S^2}{\sigma^2} = \cfrac{\sum(X_i - \overline{X})^2}{\sigma^2} \sim \chi^2(n-1) \]

Chi square distribution
Chi square distribution

따라서 $\gamma$-confidence interval을 구하면

\begin{align*} \gamma &= P \left( \chi^2_{\frac{1-\gamma}{2} }(n-1) \le \cfrac{(n-1)s^2}{\sigma^2} \le \chi^2_{\frac{1+\gamma}{2} }(n-1) \right) \\ &= P \left( \cfrac{(n-1)s^2}{\chi^2_{\frac{1+\gamma}{2}}(n-1)} \le \sigma^2 \le \cfrac{(n-1)s^2}{\chi^2_{\frac{1-\gamma}{2}}(n-1)} \right) \end{align*}

 

따라서 분산에 대한 가설 $H_0: \sigma^2 = \sigma_0^2$을 C.I.에 기반하여 testing 할 수 있다.

Sample-size calculation: Confidence intervals

$\gamma$-confidence interval 기반으로 "margin of error"를 구할 수 있다. margin of error가 $\delta$ 이하가 되려면 sample size $n$이 얼마나 커야 할까?

Sample size for Normal ($\sigma^2$ is known)

분산이 $\sigma_0^2$로 알려진 정규분포에서 $\mu$와의 차이가 $\delta$ 이하이길 원한다고 하자.

\[ z_{(1+\gamma)/2} \cfrac{\sigma_0}{\sqrt{n}} \le \delta \ \Rightarrow \ n \ge \sigma_0^2 \left( \cfrac{z_{(1+\gamma)/2}}{\delta} \right)^2 \]

Sample size for Normal ($\sigma^2$ is unknown)

분산이 알려지지 않은 경우, $t$분포를 이요한 신뢰구간을 이용해보자.

\[ t_{(1+\gamma)/2}(n-1) \cfrac{s}{\sqrt{n}} \le \delta \ \Rightarrow \ n \ge s^2 \left( \cfrac{t_{(1+\gamma)/2}(n-1) }{\delta} \right)^2 \]

그런데 $s$는 데이터(sample)로부터 계산해야하는 값(unobserved value)이다. 즉, $n$이 정해지지 않고 미리 계산할 수 없는 값이기 때문에 이 부등식을 직접 이용할 수 없다는 문제가 있다.

 

이를 해결하기 위해 heuristic upperbound를 이용한다. $[L, U]=[\mu - 3\sigma,\ \mu + 3\sigma]$은 $99\%$이므로 $\cfrac{U-L}{6}=b$라 하고 이를 $s$ 대신에 사용한다.

\[ n \ge b^2 \left( \cfrac{t_{(1+\gamma)/2}(n-1) }{\delta} \right)^2 \]

 

Sample size for Proprotion Inference (Bernoulli)

베르누이 분포의 parameter는 비율이다. 이 경우 

\[ z_{(1+\gamma)/2} \sqrt{\cfrac{\overline{x}(1-\overline{x})}{n}} \Rightarrow n \ge \overline{x}(1-\overline{x}) \left( \cfrac{z_{(1+\gamma)/2}}{\delta} \right)^2 \]

 

그런데 $\overline{x}$ 역시 데이터로부터 얻어야 하는 값이므로 이대로 $n$을 계산할 수 없다. 

$0 \le \overline{x} \le 1$이므로 $0 \le \overline{x}(1-\overline{x}) \le \frac{1}{4}$임을 이용하여 보수적으로 계산할 수 있다. (2차함수를 그려보면 쉽게 이해할 수 있다.)

따라서

\[ n \ge \cfrac{1}{4} \left( \cfrac{z_{(1+\gamma)/2}}{\delta} \right)^2 \]

728x90
반응형