비모수 통계학 (Nonparametric Statistics)

모수적 통계학 (Parametric Statistics)의 가정과 한계
처음 통계를 배울 때 가장 많이 접하는 내용은 사실 모수적 통계학이다.
여기서의 통계적 분석은 보통 다음의 내용을 가정(전제)하여 전개된다.
- 모집단이 어떤 분포를 따른다. (보통 정규분포)
- 그 분포는 모수(parameter)로 요약된다. 예를 들어, 베르누이 분포는 하나의 모수 (성공확률:
), 정규분포는 두개(평균과 분산: )로 요약된다. - 우리가 가진 표본(sample)은 이 모집단에서 무작위로 추출된 것이다.
이런 가정이 가능한 이유는 중심극한정리때문이다. 표본 크기가 충분히 크다면(이론상
그래서 실제 데이터가 정규분포가 아니라도 모수적 통계 기법이 충분히 괜찮다.
어쨌든, 이러한 가정이 충족되면 아래와 같은 분석이 가능하다.
- 평균 비교: t-test
- 변수 관계 추정: 회귀분석
- 3개 이상 집단 차이 분석: ANOVA
그러나 현실 데이터가 항상 위의 상황을 만족하지는 않는다. 만약에
- 모집단이 정규분포가 아니라면? (다른 분포라면?, 심지어 분포 자체를 가정할 수 없는 경우?)
- 극단적 이상치(outlier)가 존재한다면?
- 표본수가 작다면? (분포 추정이 어려움) (실험 자체가 많은 피험자가 없는 경우 등)
이런 경우에 위와 동일한 통계 방법을 적용할 수는 없다. 애초에 가정이 옳지 않기 때문이다.
이런 상황에서 적용할 수 있는 방법이 모수에 의존하지 않는 비모수 통계이다.
※ 모수 통계학이 잘못되었다거나 나쁘다는 것이 아니다. 가정이 합리적이고 대부분의 경우에 유효하다!!
비모수 통계학
비모수 통계학은 이름 그대로 모수(parameter)에 대한 가정을 하지 않는 통계적 방법이다.
"이 데이터는 정규분포를 따른다" 이런 가정을 하지 않고, 데이터 자체만으로 결론을 이끌어내는 방법이다.
일반적으로 비모수통계의 특징은 다음과 같다.
- 유연성: 분포를 몰라도 적용 가능
- 견고함: 이상치에 강함
- 소표본: 적은 수의 표본에도 사용 가능
- 순위(rank), 중앙값(median) 등으로 비교
특히, 비모수 방법은 다음과 같은 상황에서 유용하다.
- 정규성 검정에 실패 (즉, 정규분포가 아님)
- 소규모 실험에서 통계적 비교
- 순위 데이터, 서열 데이터 분석
- 범주형(카테고리형) 데이터 분석
대표적인 비모수 검정법
1. 순위 기반 검정
- 만-휘트니 U검정 (Mann-Whitney U test): 두 집단의 위치(중앙값) 비교
- 부호 검정 (Sign test): 두 값 중 어느 쪽이 큰지 비교. 차이의 크기는 무시하고 단순 대소 비교. "약 복용 전후 증상 변화가 있는가?"처럼 단순히 중앙값 비교를 통해 간단히 검정
- 윌콕슨 부호 순위 검정 (Wilcoxon signed-rank test): 짝지어진(paired) 두 집단 비교
- 크루스칼-왈리스 검정 (Kruskal-Wallis test): 3개 이상의 집단 비교
예시 시나리오: 어떤 제품에 대한 만족도 설문(1-5점) 결과를 비교하고 싶다고 하자.
만족도 설문 점수는 정규분포를 따른다는 가정을 하기 어렵고, 이상치에도 민감하다.
관찰된 데이터 값 자체가 아니라 데이터 크기 순서를 이용하여 어떤 집단(제품)이 더 높은 값(설문점수)을 가지는지 확인할 수 있다.
분석 목적 | 모수적 방법 | 비모수 방법 |
독립된 두 집단의 비교 | 독립 표본 t-검정 Independent t-test |
Mann-Whitney U test |
짝지어진 두 집단 비교 | 대응 표본 t-검정 Paired t-test |
Wilcoxon signed-rank test |
3개 이상 독립 집단 비교 | 일원 분산분석 One-way ANOVA |
Kruskal-Wallis test |
3개 이상 짝지어진 집단 비교 | 이원 분산분석 Two-way ANOVA |
Friedman test |
2. 분포 비교 검정
두 데이터 집합의 전체 분포 형태가 같은지 비교하는 방법이다. 평균이나 중앙값만 보지 않고 분포의 위치, 퍼짐, 모양 등을 비교한다.
- 콜모고로프-스미르노프 검정 (Kolmogorov-Smirnov test, KS test): 두 연속현 데이터의 분포 비교
- 카이제곱 적합도 검정 (Chi-square test): 관측값이 기대 분포를 따르는지 확인
예시 시나리오: 신제품과 기존제품의 소비패턴(구매 금액 분포)을 비교한다고 하자.
평균구매금액은 같아도, 한쪽은 극단적이고, 다른 한쪽은 고르게 분포할 수 있다.
전체 분포를 비교하는 KS검정이 적절하다.
3. 비모수 상관 분석
- Spearman 순위 상관계수
- Kendall' tau
비모수 방법론의 응용
1. 부트스트랩 (Bootstrap)
복원추출을 반복하여 통계량의 분포를 추정하는 방법이다.
특정 분포를 가정하지 않아도 평균, 분산, 신뢰구간 등을 구할 수 있다.
예시 시나리오: 스타트업의 고객 만족도 조사(15명)
표본 수가 적어서 정규성 가정이 어렵다.
이때 부트스트랩으로 평균 만족도의 신뢰구간을 추정할 수 있다.
2. 순열검정 (Permutation Test)
집단 라벨을 무작위로 섞어(permutation) 귀무가설에서의 분포를 직접 만들어 검정한다.
부트스트랩이 복원추출이라면, 순열검정은 재배열이 아이디어다.
예시 시나리오: 신약실험에서 A약과 B약을 복용한 두 집단의 효과 차이 비교
A라벨과 B라벨을 섞어서 효과 차이가 우연히 나온 것인지 검정
3. 커널 밀도 추정 (Kernel Density Estimation, KDE)
히스토그램보다 부드럽게, 연속적인 확률밀도함수를 추정하는 방법이다.
데이터 분포를 비모수적으로 시각화 가능하다.
4. 비모수 회귀 (Nonparametric Regression)
선형식, 다항식 등의 모델식을 미리 정하지 않고, 데이터를 따라가는 유연한 곡선을 그리는 방법이다.
LOESS, LOWESS (Locally (Weighted) Estimated Scatterplot Smoothing) 같은 국소회귀방식이 있다.
pandas, seaborn, ggplot2의 시각화 라이브러리에서도 LOESS 추세선을 지원한다.
예시 시나리오: 기온에 따른 아이스크림 판매량 분석
관계가 선형은 아닌 것 같고, 이상치도 포함되어 있음
비모수 회귀로 데이터의 흐름을 자연스럽게 따라가는 곡선 회귀선을 생성할 수 있다.
5. 비모수 베이지안 (Nonparametric Bayesian)
분포나 군집의 수조차 모를 때 사용할 수 있다.
디리클레 프로세스(Dirichlet Process, DP) 기반 모델은 군집 수를 자동으로 추정할 수 있다.
가우시안 프로세스(Gaussian Process, GP)는 비모수 베이지안 회귀의 대표적 예시이다.
예시 시나리오: 스타트업이 신제품 가격을 바꾸어서 가격에 따른 매출 데이터를 수집했다.
관측값이 몇 개 없고, 매출이 가격에 따라 얼마나 변할지 형태도 불분명하다.
가우시안 프로세스 회귀를 이용하여 매출 곡선을 그리고, 각 지점의 불확실성도 계산할 수 있다.
(데이터가 적고 관계가 불확실할 때 GP가 유용하다)
'스터디 > 확률과 통계' 카테고리의 다른 글
단순선형회귀 (Simple Linear Regression Model) (0) | 2024.06.02 |
---|---|
일원분류 분산분석 (One-Factor ANOVA) (1) | 2024.06.01 |
적합도 검정, 독립성 검정 (Goodness of Fit Test, Independence Test) (0) | 2024.05.26 |
표본분산은 왜 n-1로 나눌까? (불편추정량, 자유도) (2) | 2024.05.21 |
모비율 검정 (Inferences on Population Proportion, Two Population Proportions) (0) | 2024.05.18 |