본문 바로가기
스터디/데이터사이언스

[Data Science] Grubb's test를 이용한 Outlier detection

by 궁금한 준이 2023. 4. 8.
728x90
반응형

가정

정규분포를 따르는 표본(sample)은 이상치(outlier)를 갖지 않을 것이다.

 

검정 방법

통계량 G를 다음과 같이 정의하여 G>Gref이면 이상치가 존재한다고 판단한다.

xi는 표본(sample), x¯는 표본평균(sample mean), s는 표본표준편차(sample/empirical standard deviation)일 때 G

G=max1in|xix¯|s

 

유의수준 α에 대하여 아래 부등식을 만족하면 "정규분포에서 추출된 표본은 이상치를 갖지 않는다"를 "기각"한다.

G>n1nt1α2n,n22n2+t1α2n,n22

이때 t1α2n,n22는 유의수준이 α2n이고 자유도가 (n2)t분포의 임계값(critical value)이다.

 

위 식은 양측검정이다. 한쪽 검정을 하고 싶다면 αn을 대신 이용한다.

 

Grubb's test 주의 사항

  1. p-value 자체는 이상치의 존재성에 대해 아무것도 알려주지 못한다.
  2. 데이터가 정규분포를 따를 것이라는 가정이 성립하지 않을 수 있다.
728x90
반응형