One-Factor Analysis of Variance (ANOVA)
Analysis of Variance (ANOVA)
모집단이 2개의 경우 모평균(또는 모비율)을 비교하는 방법을 다루었다.
이제 모집단이 3개 이상인 경우에 대해 생각해보자.
기본적인 아이디어는 통계적 분석(statistical analysis)이 같은지 확인하는 것이다.
여러개의 모집단에서 추출된 독립 표본의 집합을 completely randomized design(완전임의배치법)이라 한다.
그리고 분산분석(analysis of variance, ANOVA)라는 통계적 방법론을 이용한다.
모집단이 2개인 경우, pair인지 independent인지 구분하여 검정하였다.
모집단이 3개 이상인 경우에도 비슷한 방식으로 구분한다.
첫번째는 blocking이고 두번째는 randomized block design(랜덤화 블록 설계)이라 부른다.
blocking은 pairing observation의 개념이고, randomized block design은 여러가지 모평균을 blocking과 엮은
randomized block design은 two-factor ANOVA에서 사용되는 가정이다.
※ 이름은 "분산분석"이지만 모집단의 모평균을 비교하는 방법이다. 분산 분석을 통한 모평균 추정법이라고 할 수 있다.
※ 분산 자체에 대한 통계적 검정은 "등분산 검정(분산의 동질성)"이 있다.
One-Factor Layouts
$k$개의 모집단이 각각 모평균 $\mu_1, \mu_2, \dots, \mu_k$를 갖는다고 하자.
실험자(experimenter)가 $i$번째 모집단에서 $n_i$개의 샘플을 추출하고, 그중에서 $j$번째 값을 관측한 값을 $x_{ij}$로 표기한다. 그리고 전체 데이터셋의 샘플 사이즈는 $n_T = n_1 + \cdots + n_k$가 된다.
$n_1, \dots, n_k$가 같으면 balanced라 하고, unequal하면 unbalanced dataset이라 부른다.
Modeling Assumption
$x_{ij}$는 평균이 $\mu_i$라 하자. 즉 $x_{ij} = \mu_i + \epsilon_{ij}$이고 error term은 평균이 0이고 분산이 $\sigma^2$인 정규분포를 따른다. 이를 아래와 같이 표기할 수 있다.
\[ x_{ij} \sim N(\mu_i, \sigma^2) \quad 1 \le j \le n_i \]
또한 $i$번째 모집단의 모평균 $\mu_i$의 point estimator는 다음과 같이 $i$번째 샘플들의 sample mean으로 정의한다.
\[ \hat{\mu}_i = \bar{x}_{i \cdot} = \frac{x_{i1} + \dots + x_{i n_i} }{n_i} \quad 1 \le i \le k \]
가설은 다음과 같다.
$H_0: \mu_1 = \cdots = \mu_k \text{ vs. } H_A: \mu_i \neq \mu_j \text{ for some }i \text{ and } j$
Partitioning the Total Sum of Squares
Treatment of Sum of Squares (SSTr)
null hypothesis에서 $\mu_i$는 모두 동일하기 때문에, $\hat{\mu}_i = \bar{x}_{..}$가 된다.
따라서 전제 데이터(all of the data observations)는 다음과 같다.
\[ \bar{x}_{..} = \frac{n_1\bar{x}_{1.} + \cdots + n_k \bar{x}_{k.} }{n_T} = \frac{x_{11} + \cdots + x_{kn_k}}{n_T} \]
그러면 산포도(variability)는 다음과 같이 정의할 수 있고 이를 SSTr이라 한다.
\[ \text{SSTr} = \sum_{i=1}^{k} n_i (\bar{x}_{i.} - \bar{x}_{..})^2 \]
※ textbook에 따라 SSB로 표기하기도 한다. (between)
※ $\hat{\mu} = \bar{x}_{..}$의 가중평균(weighted sum)의 형태이다.
※ SSTr은 $k$개의 처리 간의 산포도이다. (a measure of the variablity between the factor levels)
SSTr을 변형하여 다음과 같이 계산할 수 있다.
\begin{align} \text{SSTr} &= \sum_{i=1}^{k} n_i (\bar{x}_{i.} - \bar{x}_{..})^2 \\ &= \sum_{i=1}^{k}n_i \bar{x}_{i.}^2 - \sum_{i=1}^{k} n_i \bar{x}_{i.} \bar{x}_{..} + \sum_{i=1}^{k}n_i \bar{x}_{..}^2 \\ &= \sum_{i=1}^{k} n_i \bar{x}_{i.}^2 - 2n_T \bar{x}_{..}^2 + n_T \bar{x}_{..}^2 \\ &= \sum_{i=1}^{k} n_i \bar{x}_{i.}^2 - n_T \bar{x}_{..}^2 \end{align}
Error Sum of Squares (SSE)
factor-level 내에서의 error도 측정해야한다. 이때의 variability는 sum of squares of error (SSE)라 한다.
\begin{align} \text{SSE} &= \sum_{i=1}^k \sum_{j=1}^{n_i} (x_{ij}-\bar{x}_{i.})^2 \\ &= \sum_{i=1}^{k} \sum_{j=1}^{n_i}x_{ij}^2 - \sum_{i=1}^k \sum_{j=1}^{n_i} x_{ij} \bar{x}_{i.} + \sum_{i=1}^k \sum_{j=1}^{n_i} \bar{x}_{i.}^2 \\ &= \sum_{i=1}^{k} \sum_{j=1}^{n_i} x_{ij}^2 - 2\sum_{i=1}^k n_i \bar{x}_{i.} + \sum_{i=1}^k n_i \bar{x}_{i.}^2 \\ &= \sum_{i=1}^{k} \sum_{j=1}^{n_i} x_{ij}^2 - \sum_{i=1}^k n_i \bar{x}_{i.}^2 \end{align}
※ textbook에 따라 SSW로 표기하기도 한다. (within)
※ SSE은 $k$개의 처리 내의 산포도이다. (a measure of the variablity within the factor levels)
Total Sum of Squares (SST)
$k$개의 factor는 고려하지 않고 크기가 $n_T$인 전체 데이터의 분산은 고려한 값을 SST라 한다.
\begin{align} \text{SST} &= \sum_{i=1}^k \sum_{j=1}^{n_i} (x_{ij} - \bar{x}_{..})^2 \\ &= \sum_{i=1}^k \sum_{j=1}^{n_i} x_{ij}^2 -2 \sum_{i=1}^k \sum_{j=1}^{n_i}x_{ij} \bar{x}_{..} + \sum_{i=1}^k \sum_{j=1}^{n_i} \bar{x}_{..}^2 \\ &= \sum_{i=1}^k \sum_{j=1}^{n_i}x_{ij}^2 - 2n_T\bar{x}_{..}^2 + n_T \bar{x}_{..}^2 \\ &= \sum_{i=1}^k \sum_{j=1}^{n_i} x_{ij}^2 - n_T\bar{x}_{..}^2 \end{align}
※ SST는 전체 표본의 산포도이다. (a measure of the total variablity in the dataset)
※ SST = SSTr + SSE 이다.
※ 일반적으로 SST와 SSTr을 계산하여 SSE를 얻는 편이 편하다. ($\sum_{i=1}^{k} \sum_{j=1}^{n_i}x_{ij}^2$은 전체 데이터의 제곱의 합이므로 계산이 쉽다.)
Analysis of Variance Table
SSTr은 $k-1$의 자유도를 갖는다. 비슷하게, SSE의 자유도는 $n_T-k$의 자유도를 갖는다.
따라서 mean squares for treatment (MSTr)와 mean square error (MSE)는 다음과 같이 정의한다.
\[ \text{MSTr} = \frac{\text{SSTr}}{k-1}, \quad \text{MSE} = \frac{\text{SSE}}{n_T - k} \]
(i) $\text{MSE}$의 자유도는 왜 $n_T-k$ 인가?
$i$-th factor level의 분산의 추정량(표본분산)을 $s_i^2$라 하면
\[ s_i^2 = \frac{\sum_{j=1}^{n_i} (x_{ij} - \bar{x}_{i.})^2}{n_i - 1} \]
따라서 $\text{SSE} = \sum_{i=1}^{k} (n_i - 1)s_i^2$이고 $\cfrac{(n_i-1)s_i^2}{\sigma^2} \sim \chi^2_{n_i-1}$이다.
그리고 카이제곱분포의 합의 자유도는 각 자유도의 합이므로 $\cfrac{\text{SSE}}{\sigma^2} \sim \chi^2_{n_T - k}$이다.
따라서, $\text{MSE} = \cfrac{\text{SSE}}{n_T - k}$이므로 $\text{MSE}$의 분포는 다음과 같다.
\[ \text{MSE} \sim \sigma^2 \cfrac{\chi^2_{n_T - k} }{n_T - k} \]
카이제곱분포의 기댓값에 따라 $E[\chi^2_{\nu}] = \nu$이므로 $E[\text{MSE}] = \sigma^2 \left( \cfrac{n_T - k}{n_T-k} \right) = \sigma^2$ 이다. 그러므로 MSE는 error variance $\sigma^2$의 불편추정량(unbiased estimator)이다.
(ii) $\text{SSTr}$의 자유도는 왜 $k-1$ 인가?
$\text{SSTr} = \sum_{i=1}^{k} n_i (\bar{x}_{i.} - \bar{x}_{..} )^2$에서 SSTr을 $\sigma^2$으로 나누면
\[ \frac{\text{SSTr}}{\sigma^2} = \sum_{i=1}^{k} \frac{(\bar{x}_{i.} - \bar{x}_{..})^2}{ \sigma^2 / n_i} = \sum_{i=1}^{k} \left( \frac{\bar{x}_{i.} - \bar{x}_{..}}{\sigma / \sqrt{n_i}} \right)^2 \sim \chi^2_{k-1} \]
따라서 $\text{MSTr}\sim \sigma^2 \cfrac{\chi^2_{k-1}}{k-1}$이고 MSTr의 기댓값은 $E[\text{MSTr}] = \sigma^2$이다.
만약 $H_0: \mu_1 = \cdots = \mu_k$가 참이라면, $F = \cfrac{\text{MSTr}}{\text{MSE}} = \cfrac{\chi^2_{k-1} / (k-1)}{\chi^2_{n_T - k} / (n_T - k)} \sim F_{k-1, n_T-k}$를 따른다. 다르게 말하면, null hypothesis가 참이라면, 검정통계량 $F$는 $F_{k-1, n_T-k}$의 분포를 따른다는 것이다. 이를 바탕으로 p-value를 계산할 수 있다.
\[ p\text{-value} = P(X \ge F) \text{ where } X \sim F_{k-1, n_T-k}, \ F=\frac{\text{MSTr}}{\text{MSE}} \]
이렇게 계산한 p-value가 작으면 기각(reject)한다. 즉 어떤 factor-level끼리의 평균이 같지 않다는 것이다. (e.g. $\mu_1 \neq \mu_3$)
이 모든 과정을 F-test라 하고, 표로 정리하면 다음과 같다.
Pairwise Comparisons of the Factor Level Means
위의 과정대로 F-test를 통해 p-value를 계산하고, 그 값이 유의수준 $\alpha$보다 작아서 reject했다고 하자.
그러면 pairwise로 비교해서 어떤 pair가 얼마나 다른지 확인해야 한다.
※ $k$가 커질 수록 false positive가 존재할 가능성은 높아지기 때문에 multiple correction이 필요하다.
※ 다양한 방법이 있지만, 여기서는 Tukey-Kramer method만을 다룬다.
※ See also: Multiple Comparison, Scheffé's mehod, Bonferroni correction, False Discover Rate (FDR)
$1-\alpha$ confidence level의 confidence interval은 다음과 같다.
\[ \mu_{i_1} - \mu_{i_2} \in \left( \bar{x}_{i_1} - \bar{x}_{i_2} \pm \frac{s \ q_{\alpha, k, \nu}}{\sqrt{2}} \sqrt{\frac{1}{n_{i_1}} + \frac{1}{n_{i_2}} } \right) \]
이때 $q_{\alpha, k, \nu}$는 critical point, $\nu = n_T -k$, $s = \hat{\sigma} = \sqrt{\text{MSE}}$
이렇게 구한 C.I.에 $0$이 포함되어 있다면, $\mu_{i_1}$와 $\mu_{i_2}$가 unequal하다는 증거가 없다(no evidence)는 뜻이 된다.
Sample Size Determination
위에서 구한 신뢰구간을 바탕으로, 표본 수를 구할 수 있다.
\[ L = \sqrt{2} s q_{\alpha, k, \nu} \sqrt{\frac{1}{n_{i_1}} + \frac{1}{n_{i_2}} } \]
만약 모든 factor의 샘플 수를 동일하게 할 것이라면, $L = \cfrac{2 s q_{\alpha, k, \nu}}{\sqrt{n}}$이다.
만약 연구자가 특정 $L$ 이하의 신뢰구간을 원한다면, 그때의 $n$은 다음과 같이 구한다.
\[ n \approxeq \frac{4 s^2 q_{\alpha, k, \nu}^2}{L^2} \]
'스터디 > 확률과 통계' 카테고리의 다른 글
단순선형회귀 (Simple Linear Regression Model) (0) | 2024.06.02 |
---|---|
적합도 검정, 독립성 검정 (Goodness of Fit Test, Independence Test) (0) | 2024.05.26 |
표본분산은 왜 n-1로 나눌까? (불편추정량, 자유도) (0) | 2024.05.21 |
모비율 검정 (Inferences on Population Proportion, Two Population Proportions) (0) | 2024.05.18 |
모평균 추정-모집단이 두개인 경우 (Comparing Two Population Means, Paired Samples, Independent Samples) (0) | 2024.05.16 |