본문 바로가기
스터디/확률과 통계

Order Statistics, 순서통계량

by 궁금한 준이 2023. 3. 29.
728x90
반응형

 

 

Order Statistics, 순서 통계량

$(X_1, \dots, X_n)$이 i.i.d.한 분포에서 추출한 확률변수하고 하자. 많은 경우에, 우리는 확률변수의 값이 아니라 확률변수의 순서에 관심이 있을 때가 있다. 이런 경우 아래와같이 $1$번째부터 $n$번째 확률변수를 나열하면 다음과 같다.

\[ X_{(1)}, \dots X_{(n)} \]

$X_{(i)}$를 $i$번째 작은 확률변수이고, 당연히 $X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)}$ 이다.

 

특별히, 표본 중앙값(sample median, median과는 다르다)은 $X_{(\left[ \frac{n}{2} \right])}$ 이다. 

Note: 중앙값(median, $m$)의 정의는 cdf $F$에 대하여, $F(m)=0.5$인 $m$이다.

 

$X_1, \dots, X_n$은 독립이지만, 순서통계량 $X_{(1)}, \dots, X_{(n)}$은 독립이 아니다. 

 

순서 통계량이 유용한 경우?

순서통계량이 유용한 이유는 어떤 분포의 극단값(최솟값, 최댓값)에 관심을 가져야할 때가 있기 때문이다. 

예를 들어, 어떤 제품(전구, 자동차 부품 등)의 수명에 대하여, 평균값이 유용할까? 그럴지도 모른다. 하지만 이런 경우 제품 수명이 가장 짧은 경우(최솟값)에 관심을 가질 것이다. 

또, 어떤 지역의 농산물 수확량이 강수량이 영향을 미친다고 하자. 이때 평균적인 강수량이 의미가 있을까? 물론 그럴 수 있다. 그러나 장마나 태풍같은 극단적인 경우에 작황을 망칠 것이다. 이 경우 최댓값에 대해 관심을 가질 것이다.

 

따라서 특별히 $X_{(1)} = \min(X_1, \dots, X_n), \ X_{(n)} = \max(X_1, \dots, X_n)$의 분포를 찾는 법을 알아보고, 마지막에 일반화하여 $X_{(r)}$의 분포를 찾아보자.

 

Distribution of the $X_{(n)}$ (Sample Maximum)

누적분포함수 cdf부터 시작하자.

$F_{X_{(n)}}(x) = P(X_{(n)} \le x) = P(X_1 \le x, X_2 \le x, \dots, X_n \le x) = \prod_{i=1}^{n}P(X_i \le x) = \left( F_{X} (x) \right)^n$

따라서 

\[ F_{X_{(n)}}(x) = [F(x)]^n \]

\[ f_{X_{(n)}}(x) = n [ F(x) ]^{n-1} f(x) \]

Distribution of the $X_{(1)}$ (Sample Minimum)

$P(X_{(1)} \le x) = P(X_1 \le x, \dots, X_n \le x) = \left( 1 - F_X(x) \right)^n$이므로

\[ F_{X_{(1)}}(x) = 1 - [ 1-F(x) ]^n \]

따라서

\[ f_{X_{(1)}}(x) = n [1-F(x) ]^{n-1}f(x) \]

 

Distribution of the $X_{(r)}$

엄밀하기보다 보다 직관적으로 설명해보겠다.

누적분포함수를 작성하면 $X_{(r)}$보다 작은 순서통계량은 $(r-1)$개이고, $X_{(r)}$보다 큰 순서통계량은 $(n-r)$개 존재한다. 따라서 cdf는

\[ F_{X_{(r)}}(x) = \sum_{i=r}^{n}\binom{n}{i} [ F(x) ]^{i} [ 1-F(x) ]^{n-i} \]

따라서

\[ f_{X_{(r)}}(x) = \binom{n}{r-1} [F(x)]^{r-1} [1-F(x)]^{n-r} f(x) \]

 

 

Joint pdf of $X_{(1)} \dots, X_{(n)}$

\[ f_{X_{(1)}, \dots, X_{(n)}}(x_1, \dots, x_n) = n! f(x_1) \cdots f(x_n) \cdot 1_{ \{x_1 \le x_2 \le \cdots, \le x_n \} } \]

728x90
반응형