본문 바로가기
스터디/데이터사이언스

[Data Science] Grubb's test를 이용한 Outlier detection

by 궁금한 준이 2023. 4. 8.
728x90
반응형

가정

정규분포를 따르는 표본(sample)은 이상치(outlier)를 갖지 않을 것이다.

 

검정 방법

통계량 $G$를 다음과 같이 정의하여 $G > G_{ref}$이면 이상치가 존재한다고 판단한다.

$x_i$는 표본(sample), $\bar{x}$는 표본평균(sample mean), $s$는 표본표준편차(sample/empirical standard deviation)일 때 $G$는

\[ G = \cfrac{\displaystyle\max_{1 \le i \le n}|x_i - \bar{x}|}{s} \]

 

유의수준 $\alpha$에 대하여 아래 부등식을 만족하면 "정규분포에서 추출된 표본은 이상치를 갖지 않는다"를 "기각"한다.

\[ G > \cfrac{n-1}{\sqrt{n}}\sqrt{\cfrac{t^2_{1-\cfrac{\alpha}{2n}, n-2 }}{n-2 + t^2_{1-\cfrac{\alpha}{2n}, n-2 } }} \]

이때 $t^2_{1-\cfrac{\alpha}{2n}, n-2}$는 유의수준이 $\cfrac{\alpha}{2n}$이고 자유도가 $(n-2)$인 $t$분포의 임계값(critical value)이다.

 

위 식은 양측검정이다. 한쪽 검정을 하고 싶다면 $\cfrac{\alpha}{n}$을 대신 이용한다.

 

Grubb's test 주의 사항

  1. p-value 자체는 이상치의 존재성에 대해 아무것도 알려주지 못한다.
  2. 데이터가 정규분포를 따를 것이라는 가정이 성립하지 않을 수 있다.
728x90
반응형