728x90
반응형
가정
정규분포를 따르는 표본(sample)은 이상치(outlier)를 갖지 않을 것이다.
검정 방법
통계량 $G$를 다음과 같이 정의하여 $G > G_{ref}$이면 이상치가 존재한다고 판단한다.
$x_i$는 표본(sample), $\bar{x}$는 표본평균(sample mean), $s$는 표본표준편차(sample/empirical standard deviation)일 때 $G$는
\[ G = \cfrac{\displaystyle\max_{1 \le i \le n}|x_i - \bar{x}|}{s} \]
유의수준 $\alpha$에 대하여 아래 부등식을 만족하면 "정규분포에서 추출된 표본은 이상치를 갖지 않는다"를 "기각"한다.
\[ G > \cfrac{n-1}{\sqrt{n}}\sqrt{\cfrac{t^2_{1-\cfrac{\alpha}{2n}, n-2 }}{n-2 + t^2_{1-\cfrac{\alpha}{2n}, n-2 } }} \]
이때 $t^2_{1-\cfrac{\alpha}{2n}, n-2}$는 유의수준이 $\cfrac{\alpha}{2n}$이고 자유도가 $(n-2)$인 $t$분포의 임계값(critical value)이다.
위 식은 양측검정이다. 한쪽 검정을 하고 싶다면 $\cfrac{\alpha}{n}$을 대신 이용한다.
Grubb's test 주의 사항
- p-value 자체는 이상치의 존재성에 대해 아무것도 알려주지 못한다.
- 데이터가 정규분포를 따를 것이라는 가정이 성립하지 않을 수 있다.
728x90
반응형
'스터디 > 데이터사이언스' 카테고리의 다른 글
[Python] 데이터 시각화 (Basic) (0) | 2023.04.11 |
---|---|
[Pandas] Basic Statistics 살펴보기 (0) | 2023.04.10 |
[Data Science] Association Rule Mining (7) mlxtend로 association rule을 만들어보자 (0) | 2023.04.04 |
[Data Science] Association Rule Mining (6) Interesting Measures (0) | 2023.04.03 |
[Data Science] Association Rule Mining (5) Rule Generation (0) | 2023.04.03 |