본문 바로가기
스터디/확률과 통계

누적분포함수, Cumulative Distribution Function (CDF)

by 궁금한 준이 2023. 3. 21.
728x90
반응형

Keyword

cumulative distribution function, distribution function, quartiles, mixture distribution

누적분포함수, 분포함수, 사분위수, 혼합분포

Section 5 Cumulative Distribution Function

확률변수 $X$가 구간 $(-\infty, x]$의 원소가 되는 즉 $P(X \in (-\infty, x]) = P(X \le x)$인 함수를 생각할 수 있다.

Cumulative distribution function, 누적분포함수

확률변수 $X$에 대하여 $\mathbb{R} \to [0, 1]$로 정의되는 누적분포함수를 다음과 같이 정의한다.
\[ F_X(x) = P(x \le X) \]

※ cumulative distribution function은 줄여서 distribution function(분포함수) 또는 줄여서 cdf로 많이 표기한다.

distribution function이라고 부르는 이유는 $F_X$로부터 직접적으로 $X$를 구할 수 있기 때문이다.

 

구간 $B$의 상태에 따라 $P(X \in B)$를 구하는 방법이 다르다.

(1) $B = (a, b]$, 즉 $P(X \in B) = P(a < X \le b)$

$ P(a < X \le b) = P(X \le b) - P(X \le a) = F_X(b) - F_X(a) $

 

(2) $B = [a, b]$, 즉 $P(X \in B) = P(a \le X \le b)$

$ P\left(a \le X \le b\right) = \displaystyle\lim_{n\to \infty}P\left(a - \cfrac{1}{n} < X \le b\right) = F_X(b)-\displaystyle\lim_{n \to \infty}F_X\left(a - \frac{1}{n}\right) = F_X(b) - F_X(a^-)$

 

(3) $B = (a, b)$, 즉 $P(X \in B) = P(a < X < b)$

$P(a < X < b) = \displaystyle\lim_{n \to \infty}F_X\left(b - \frac{1}{n}\right) - F_X(a) = F_X(b^-) - F_X(a)$

 

(4) $B = [a, b)$, 즉 $P(X \in B) = P(a  \le X < b)$

$P(a \le x < b) = \displaystyle\lim_{n \to \infty}F_X\left(b -\frac{1}{n}\right) - \displaystyle\lim_{n \to \infty}F_X\left(a -\frac{1}{n} \right) = F_X(b^-) - F_X(a^-)$

 

Properties of Distribution Functions

$F_X$가 확률변수 $X$의 누적분포함수라고 할 때 아래의 성질을 만족한다.

  • $0 \le F_X(x) \le 1, \forall_x \in \mathbb{R}$
  • $x \le y$이면 $F_X(x) \le F_Y(y)$
  • $\lim_{x \to +\infty}F_X(x) = 1$
  • $\lim_{x \to -\infty}F_X(x) = 0$

 

Cdfs of Discrete Distributions, 이산누적분포함수

이산확률변수 $X$의 확률(질량)함수가 $p_X$일 때, $X$의 분포함수 $F_X$를 정의하면
\[ F_X(x) = \sum_{y \le x}p_X(y) \]

Example 1

공정한 주사위를 굴리는 시행에 대하여 표본공간 $S=\{1, 2, 3, 4, 5, 6\}$에 대하여 $P(s) = \frac{1}{6}, \ s \in S$을 생각해보자. 확률변수 $X$를 주사위 눈을 $6$으로 나눈 숫자라고 하자. 즉 $X(s) = \frac{s}{6}$이다. 이 확률변수 $X$의 분포함수 $F_X$를 구해보자. 분포함수의 정의에 따라

\[ F_X(x) = P(X \le x) = \begin{cases} 0 \qquad x < 1/6 \\ 1/6 \quad 1/6 \le x < 2/6 \\ 2/6 \quad 2/6 \le x < 3/6 \\ 3/6 \quad 3/6 \le x < 4/6 \\ 4/6 \quad 4/6 \le x < 5/6 \\ 5/6 \quad 5/6 \le x < 1 \\ 1 \qquad 1 \le x \end{cases} \]

Example 1의 cdf $F_X$

 

Cdfs of (Absolutely) Continuous Distribution, 연속누적분포함

연속확률변수 $X$의 확률밀도함수가 $f_X$일 때, $X$의 분포함수 $F_X$를 정의하면
\[ F_X(x) = \int_{-\infty}^{x}f_X(t) dt , x \in \mathbb{R} \]

따라서 다음 식을 이용하여 밀도함수 $f_X$를 구할 수 있다.
\[ f_X(x) = \cfrac{d}{dx}F_X(x) = F_X^{'}(x) \]

특히, 표준정규분포함수 $\phi$의 분포함수를 $\Phi$라고 부르고

\[ \Phi(x) = \int_{-\infty}^{x}\phi(t) dt \]

 

Example 2

$X \sim N(0, 1)$에 대하여, $P(-0.63 \le X \le 2.0)$를 구해보자. $\Phi$와 평균정규분포표를 이용하면

$P(-0.63 \le X \le 2.0) = P(X \le 2.0) - P(X \le -0.63) = \Phi(2.0) - \Phi(-0.63) = 0.7129$

 

Example 3

아래와 같이 정의된 분포함수가 있다.

\[ F_X(x) = \begin{cases} 0 \qquad \qquad \qquad x < 2 \\ (x-2)^4/16 \quad 2 \le x < 4 \\ 1 \qquad \qquad \qquad 4 \le x \end{cases} \]

 

$P(X \le 3) = F_X(3) = (3-2)^4/16 = 1/16$

$P(X < 3) = F_X(3^-) = 1/16$

Mixture Distribution, 혼합분포

$F_1, F_2, \dots, F_k$를 각각 분포함수라고 하고 $p_1, p_2, \dots, p_k$는 $\sim_{i=1}^{k}p_i=1$인 음이 아닌 양수(이자 확률분포)라고 하자. 이때 새로운 함수 $G$를 아래와 같이 정의하자.

\[ G(x) = p_1F_1(x) + p_2F_2(x) + \cdots + p_kF_k(x) = \sum_{i=1}^{k}p_i F_i(x) \]

$G(x)$는 위의 4가지 property를 모두 만족하므로 역시 cdf이다.

 

$P(Z=i)=p_i$라 하고 $Y$는 $Z$에 의존한다고(depends on) 하자. 이때 $Y$의 cdf는

\[ P(Y \le y) = \sum_{i=1}^{k}P(Y \le y | Z=i)P(Z=i) = \sum_{i=1}^{k}p_iF_i(y) = G(y) \]

 

실제로 가장 많이 사용되는 혼합분포는 Gaussian Mixture Distribution이다. 

$k=3$인 Gaussian Distribution Distribution

 

CDF를 이용하여 사분위수, 중앙값 구하기

확률분포가 알려져 있을 때, 사분위수(Q1, 중앙값, Q3)를 구할 수 있다.

$P(X \le x) = F_X(x) = p$, 특히 $p=0.25, 0.5, 0.75$인 $x$를 구하면 된다,

 

Example

$X \sim \text{Exp}(\lambda)$의 중앙값을 구해보자. 

$F_X(x) = 1 - e^{-\lambda x}$이므로 중앙값을 $m$이라 하면

$F_X(m) = 1 - e^{-\lambda m} = 0.5$

$e^{-\lambda m} = 0.5$ 따라서 $m = \cfrac{\ln{2}}{\lambda}$

 

Example

$X \sim U(1, 2)$의 3분위수를 구해보자.

$f_X(x) = 1, \ F_X(x) = x-1$이므로 $F_X(q_3)=q_3-1 = 0.75$, 따라서 $q_3=1.75$

728x90
반응형