본문 바로가기
스터디/확률과 통계

중앙값 추정하기. Median of Grouped Data using Median Class

by 궁금한 준이 2023. 3. 7.
728x90
반응형

Median of Ungrpouped Data

배열 $X$가 $n$개의 원소를 갖고 있다고 하자. 즉 $X = [x_1, x_2, \dots x_n]$

이때 중앙값은 다음 순서로 구한다.

  1. 배열 $X$를 정렬한다.
  2. $n$에 따라 중앙값을 찾는다.
    1. $n$이 홀수라면, $\cfrac{n+1}{2}$ 번째 원소가 중앙값이다.
    2. $n$이 짝수라면, $\cfrac{n}{2}$번째 원소와 $\cfrac{n}{2} + 1$번째 원소의 평균이다.

Median of Discrete Frequency Distribution

어떤 하키 팀의 시즌 골 성적이다. 골 수의 중앙값을 구하여라.

Goals Frequency Cumulative Frequency
0 1 1
1 6 7
2 7 14
3 2 16
4 3 19
5 1 20

전체 원소 수가 $n=20$이므로, 중앙값은 $10$번째와 $11$번째의 평균이다. 누적빈도수를 보면 $10$번째와 $11$번째 모두 2골을 기록한 것을 알 수 있다. 따라서 중앙값은 그 둘의 평균인 $\cfrac{2+2}{2}=2$이다.

Median of Grouped Data

Marks out of 50 Frequency Cumulative Frequency
0-10 2 2
10-20 4 6
20-30 5 11
30-40 4 15
40-50 2 17

$n=17$이므로 중앙값은 $9$번째 수이다. 그러나 Grouped data는 구간별로 빈도수를 나타낸 데이터이다. 따라서 누적빈도수로 중앙값을 찾을 수 없다!! 

 

그런데, $[20, 30]$을 $5$개로 균등하게 나누어서 $[20, 22.5, 25, 27.5, 30]$이라고 생각하면, 중앙값인 $9$번째 수는 이 구간의 3번째 숫자인(이전까지 $6$개가 이미 있으므로) $25$로 간주할 수 있지 않을까?

 

Using Median Class

median class는 중앙값이 되는 $\frac{n}{2}$번째 원소가 속하는 클래스이다. 위의 예시에서는 median class는 20-30이다.

이를 이용하여 위에서 생각해낸 일반화한 공식은 다음과 같다.

 

\[ \text{Median} = l + \cfrac{\cfrac{n}{2} - cf}{f} \times h \]

$n$: total number of observations. 전체 데이터 수.

$l$: lower limit of the median class. median class의 하방.

$f$: frequency of the median class. median class의 빈도수.

$cf$: cumulative frequency of the clas preceding the median class. median class의 직전 누적빈도수.

$h$: size of the median class. median class의 원소들의 개수.

 

위 공식을 이용하면 위 예시의 중앙값은 $20 + \cfrac{\frac{17}{2} - 6}{5} \times 10 = 25$

 

median class을 같은 간격으로 잘라내면 $\cfrac{h}{f}$이고 중앙값이 있는 $\cfrac{n}{2}$번째 원소까지만 계산하면 되므로 시작값 $l$에서 $\cfrac{n}{2} - cf$만큼 $\cfrac{h}{f}$만큼 더하면 된다. 

 

좀 더 이해하기 쉽게 공식의 순서를 바꾸면

\[ median = l + \cfrac{h}{f} \times \left( \cfrac{n}{2} - cf \right) \]

 

Example

age frequency cumulative frequency
1-5 200 200
6-15 450 650
16-20 300 950
21-50 1500 2450
51-80 700 3150
81-110 44 3194

$n=3194$이므로 median class는 $\frac{n}{2}=1597$이 속한 [21-50]이다. 따라서 $l=21$, $f=1500$, $cf=950$, $h=50-20=30$이므로

\[ median = 21 + \cfrac{1597-950}{1500} \times 30 = 33.94 \]

 

728x90
반응형