본문 바로가기
스터디/확률과 통계

모평균 가설 검정 (Hypothesis Tests of a Population Mean, t-test, z-test)

by 궁금한 준이 2024. 5. 9.
728x90
반응형

Hypothesis testing, Null hypothesis, Alternative hypothesis, p-value

통계적으로 다양한 가설을 세울 수 있다. (평균, 분산, model fitness 등)

이 글에서는 모평균에 대한 가설과 그 검정방법을 소개한다.

Hypothesis

Null Hypothesis ($H_0$, 귀무가설)

  • 초기에 설정하는 가설.
  • 효과가 없거나 차이가 없다는 주장을 담는다.

Alternative Hypothesis ($H_A$, 대립가설)

  • 귀무가설과 대조(opposite)되는 가설.
  • 귀무가설이 틀렸다는 것을 보여주기 위해 사용된다.
  • 보통 대립가설이 "주장"이 되는 경우가 많다.

모평균($\mu$)과 관련된 가설은 다음과 같이 세팅된다.

two-sided set of hypothesis: $H_0:\ \mu = \mu_0 \ \text{vs.} \ H_A:\ \mu \neq \mu_0$

one-sided set of hypothesis: $H_0:\ \mu \le \mu_0 \ \text{vs.} \ H_A:\ \mu > \mu_0$

one-sided set of hypothesis: $H_0:\ \mu \ge \mu_0 \ \text{vs.} \ H_A:\ \mu < \mu_0$

Interpretation of p-value

type I error (제 1종 오류): $H_0$가 true인데, $H_0$를 기각(reject)하는 오류.

type II error (제 2종 오류): $H_0$가 false인데, $H_0$를 채택(accept)하는 오류.

※ 좀 더 본질적인 통계학자의 시각은 not reject ≠ accept 이고 기각을 유보하는 것에 더 가깝다. 그러나 여기(학부 수준 textbook)에서는 not reject = accpet로 간주한다.

Error classification of hypothesis test

 

significane level ($\alpha$, 유의수준): type I error의 확률의 상방(upper bound)을 특정할 값. 일반적으로 1%~10%의 범위를 선책하고 주 $0.10,\ 0.05,\ 0.001$ 등을 사용한다. $\alpha = P(\text{Type I error})$

 과학적 가설의 관점에서 바라보면, false discovery를 더욱 경계할 것이다. 따라서 textbook에서는 type 1 error를 더 관심을 가지고 살펴보게 된다.

※ type I error와 type II error를 동시에 줄이는 방법은 존재하지 않는다. false discovery를 $\alpha$로 고정시키고, type II error를 줄이는 방법 중심으로 서술한다.

 

p-value: $H_0$가 true일 때, 내가 가진 데이터가 더 안좋을 확률. (probability of obtaining a given data set or worse when the null hypothesis is true)

  • p-value가 크면, 내 데이터셋이 $H_0$에서 발생할 법하다(likely to happen)는 뜻이다.
  • p-value가 크다고 해서 $H_0$가 true라는 뜻은 아니다. ($H_0$가 true일때~ 이므로)
  • p-value가 작으면, $H_0$가 less plausible하다는 뜻이다. 
  • p-value가 작다는 건, $H_0$가 not plausible하다는 증거(evidence)는 있지만, 압도적이지는 않다.(not overwhelming)
  • p-value가 크다/작다의 비교 대상은 $\alpha$이다. (아래 자세히 설명)

Calculation of p-values

two-sided t-test

testing $H_0:\mu = \mu_0 \ \text{vs.} \ H_A:\mu \neq \mu$

이때 p-value=$2 \times P(T \ge |t|)$

이때 $T = \cfrac{\bar{X} - \mu_0}{S / \sqrt{n}}$, $t = \cfrac{\bar{x}-\mu_0}{ s / \sqrt{n}}$이고 $T \sim t_{n-1}$이다. 

 

one-sided t-test

testing $H_0:\mu \le \mu_0 \ \text{vs.} \ H_A:\mu > \mu$

p-value=$2 \times P(T > t)$ ($H_A$의 방향을 따라간다.)

이때 $T = \cfrac{\bar{X} - \mu_0}{S / \sqrt{n}}$, $t = \cfrac{\bar{x}-\mu_0}{ s / \sqrt{n}}$이고 $T \sim t_{n-1}$이다. 

 

testing $H_0:\mu \ge \mu_0 \ \text{vs.} \ H_A:\mu < \mu$

p-value=$2 \times P(T < t)$ ($H_A$의 방향을 따라간다.)

이때 $T = \cfrac{\bar{X} - \mu_0}{S / \sqrt{n}}$, $t = \cfrac{\bar{x}-\mu_0}{ s / \sqrt{n}}$이고 $T \sim t_{n-1}$이다. 

Decision rules for a size $\alpha$ hypothesis test

 

※ 가설검정의 다른 방법은 네이만-피어슨 가설 검정이다. 수리통계학과 같은 고급 과목에서 소개하며 보다 더 수학적으로 검정력을 계산하는 접근법이다. (확률적 기각?)

그러나 후대에 오면서 피셔의 검정법과 네이만-피어슨의 검정법이 섞인 방법이 학부 통계에서 배우는 검정법으로 보인다. (p-value와 $\alpha$가 동시에 등장)

 

Significance Levels (유의수준)

사실 귀무가설의 기각/채택은 $\alpha$에 따라 달라진다. 같은 p-value여도 실험 전에 어떤 $\alpha$를 골랐느냐에 따라 귀무가설의 기각/채택의 선택이 갈리게 된다.

 

$\alpha$는 Type I error의 확률과 의미가 같다. Type I error를 줄이는 것은, 작은 $\alpha$를 의미하고, $H_0$을 지키는(protection)이 된다.

 

Decision Process

p-value < $\alpha$이면, rejection of $H_0$ (귀무가설을 기각)

p-value > $\alpha$이면, accpetance(or, not rejection) of $H_0$ (귀무가설을 채택)

(p-value 계산 방법은 위에 설명)

 

size $\alpha$ test for two-sided hypothesis

testing $H_0:\mu = \mu_0 \ \text{vs.} \ H_A:\mu \neq \mu_0$

에서 test statistics $|t|$의 rejection region은 $|t| > t_{\alpha/2, n-1}$이고, acceptance region은 $|t| \le t_{\alpha/2, n-1}$ 이다.

 

confidence interval과 hypothesis testing간의 관계에서 연결고리를 찾을 수 있다. 신뢰도가 ($1-\alpha$)인 two-sided confidence interval에서, $\mu_0$가 이미 신뢰구간안에 포함되어 있다면, p-value > $\alpha$이므로 $H_0$을 기각하지 않는다.

Relationship between hypothesis testing and confidence intervals

 

마찬가지로, one-sided testing에서도 동일한 결과를 얻을 수 있다.

testing $H_0:\mu \le \mu_0 \ \text{vs.} \ H_A:\mu > \mu_0$

  • test statistics: $t$
  • Rejection region: $t > t_{\alpha, n-1}$ ($H_A$와 같은 부등호 방향)
  • Acceptance region: $t \le t_{\alpha, n-1}$
  • Confidence interval: $\mu \in \left(\bar{x} - \cfrac{t_{\alpha, n-1} s}{\sqrt{n}}, \ \infty \right)$
  • $\mu_0$가 위 신뢰구간에 존재하면, p-value > $\alpha$이므로, $H_0$ accept

testing $H_0:\mu \ge \mu_0 \ \text{vs.} \ H_A:\mu < \mu_0$

  • test statistics: $t$
  • Rejection region: $t < -t_{\alpha, n-1}$ ($H_A$와 같은 부등호 방향)
  • Acceptance region: $t \ge -t_{\alpha, n-1}$
  • Confidence interval: $\mu \in \left(-\infty, \ \bar{x} + \cfrac{t_{\alpha, n-1} s}{\sqrt{n}} \right)$
  • $\mu_0$가 위 신뢰구간에 존재하면, p-value > $\alpha$이므로, $H_0$ accept

Power of hypothesis test (검정력)

$\text{power} = 1 - \Pr(\text{Type II error})$

power는 $H_0$가 false일 때 $H_0$가 기각될 확률이다.

$\alpha=\Pr(\text{Type I error})$ 라는 것에 비교하여, $\beta=\Pr(\text{Type II error})$라고도 표기한다. 이때는 power = $1 - \beta$로 표기한다.

 

Hypothesis testing과 CI를 결정짓는 3가지 요소들

$z$-Tests

$n$개의 observed data가 있고, 표본평균이 $\bar{x}$이고 분산이 $\sigma^2$으로 알려진(knwon) 샘플에서 가설 검정을 해보자. 

z-statistic: $Z = \cfrac{\overline{X} - \mu_0}{\sigma / \sqrt{n}}$

\[ (\text{t-test}, s, t_{\alpha, n-1}) \Leftrightarrow (\text{z-test}, \sigma, z_{\alpha}) \]

 

testing $H_0:\mu = \mu_0 \ \text{vs.} \ H_A:\mu \neq \mu_0$

  • test statistics: $z$
  • p-value = $2 \times \Phi(-|z|)$
  • Rejection region: $|z| > z_{\alpha/2}$
  • Acceptance region: $|z| \le z_{\alpha/2}$
  • Confidence interval: $\mu \in \left(\bar{x} - \cfrac{z_{\alpha /2} \sigma}{\sqrt{n}}, \ \bar{x} + \cfrac{z_{\alpha/2} \sigma }{\sqrt{n}} \right)$
  • $\mu_0$가 위 신뢰구간에 존재하면, p-value > $\alpha$이므로, $H_0$ accept

testing $H_0:\mu \le \mu_0 \ \text{vs.} \ H_A:\mu > \mu$

  • p-value = $1 - \Phi(z)$
  • Rejection region: $z > z_{\alpha/2}$
  • Acceptance region: $z \le z_{\alpha/2}$
  • Confidence interval: $\mu \in \left(\bar{x} - \cfrac{z_{\alpha /2} \sigma }{\sqrt{n}}, \ \infty \right)$
  • $\mu_0$가 위 신뢰구간에 존재하면, p-value > $\alpha$이므로, $H_0$ accept

testing $H_0:\mu \ge \mu_0 \ \text{vs.} \ H_A:\mu < \mu_0$

  • p-value = $\Phi(z)$
  • Rejection region: $z > -z_{\alpha/2}$
  • Acceptance region: $z \le -z_{\alpha/2}$
  • Confidence interval: $\mu \in \left(-\infty, \ \bar{x} + \cfrac{z_{\alpha/2} \sigma }{\sqrt{n}} \right)$
  • $\mu_0$가 위 신뢰구간에 존재하면, p-value > $\alpha$이므로, $H_0$ accept
728x90
반응형