Median of Ungrpouped Data
배열 $X$가 $n$개의 원소를 갖고 있다고 하자. 즉 $X = [x_1, x_2, \dots x_n]$
이때 중앙값은 다음 순서로 구한다.
- 배열 $X$를 정렬한다.
- $n$에 따라 중앙값을 찾는다.
- $n$이 홀수라면, $\cfrac{n+1}{2}$ 번째 원소가 중앙값이다.
- $n$이 짝수라면, $\cfrac{n}{2}$번째 원소와 $\cfrac{n}{2} + 1$번째 원소의 평균이다.
Median of Discrete Frequency Distribution
어떤 하키 팀의 시즌 골 성적이다. 골 수의 중앙값을 구하여라.
Goals | Frequency | Cumulative Frequency |
0 | 1 | 1 |
1 | 6 | 7 |
2 | 7 | 14 |
3 | 2 | 16 |
4 | 3 | 19 |
5 | 1 | 20 |
전체 원소 수가 $n=20$이므로, 중앙값은 $10$번째와 $11$번째의 평균이다. 누적빈도수를 보면 $10$번째와 $11$번째 모두 2골을 기록한 것을 알 수 있다. 따라서 중앙값은 그 둘의 평균인 $\cfrac{2+2}{2}=2$이다.
Median of Grouped Data
Marks out of 50 | Frequency | Cumulative Frequency |
0-10 | 2 | 2 |
10-20 | 4 | 6 |
20-30 | 5 | 11 |
30-40 | 4 | 15 |
40-50 | 2 | 17 |
$n=17$이므로 중앙값은 $9$번째 수이다. 그러나 Grouped data는 구간별로 빈도수를 나타낸 데이터이다. 따라서 누적빈도수로 중앙값을 찾을 수 없다!!
그런데, $[20, 30]$을 $5$개로 균등하게 나누어서 $[20, 22.5, 25, 27.5, 30]$이라고 생각하면, 중앙값인 $9$번째 수는 이 구간의 3번째 숫자인(이전까지 $6$개가 이미 있으므로) $25$로 간주할 수 있지 않을까?
Using Median Class
median class는 중앙값이 되는 $\frac{n}{2}$번째 원소가 속하는 클래스이다. 위의 예시에서는 median class는 20-30이다.
이를 이용하여 위에서 생각해낸 일반화한 공식은 다음과 같다.
\[ \text{Median} = l + \cfrac{\cfrac{n}{2} - cf}{f} \times h \]
$n$: total number of observations. 전체 데이터 수.
$l$: lower limit of the median class. median class의 하방.
$f$: frequency of the median class. median class의 빈도수.
$cf$: cumulative frequency of the clas preceding the median class. median class의 직전 누적빈도수.
$h$: size of the median class. median class의 원소들의 개수.
위 공식을 이용하면 위 예시의 중앙값은 $20 + \cfrac{\frac{17}{2} - 6}{5} \times 10 = 25$
median class을 같은 간격으로 잘라내면 $\cfrac{h}{f}$이고 중앙값이 있는 $\cfrac{n}{2}$번째 원소까지만 계산하면 되므로 시작값 $l$에서 $\cfrac{n}{2} - cf$만큼 $\cfrac{h}{f}$만큼 더하면 된다.
좀 더 이해하기 쉽게 공식의 순서를 바꾸면
\[ median = l + \cfrac{h}{f} \times \left( \cfrac{n}{2} - cf \right) \]
Example
age | frequency | cumulative frequency |
1-5 | 200 | 200 |
6-15 | 450 | 650 |
16-20 | 300 | 950 |
21-50 | 1500 | 2450 |
51-80 | 700 | 3150 |
81-110 | 44 | 3194 |
$n=3194$이므로 median class는 $\frac{n}{2}=1597$이 속한 [21-50]이다. 따라서 $l=21$, $f=1500$, $cf=950$, $h=50-20=30$이므로
\[ median = 21 + \cfrac{1597-950}{1500} \times 30 = 33.94 \]
'스터디 > 확률과 통계' 카테고리의 다른 글
이산확률분포 그려보기 (Python) (0) | 2023.03.10 |
---|---|
Discrete Random Variables and Distributions (확률변수, 이산확률분포) (0) | 2023.03.09 |
Ch1. Probability Models (0) | 2023.03.04 |
[확률] 생일문제 (0) | 2023.03.02 |
[확률] 베이즈 정리 (Bayes' theorem) (0) | 2023.02.18 |