본문 바로가기
스터디/확률과 통계

Discrete Random Variables and Distributions (확률변수, 이산확률분포)

by 궁금한 준이 2023. 3. 9.
728x90
반응형

 

 

Keywords

random variables, distribution, discrete distribution, degenerate distribution, bernoulli distribution, binomial distribution, geometric distribution, nagative-binomial distribution, poisson distribution, hypergeometric distribution

확률변수, 분포, 이산 확률 분포, 퇴화 분포, 베르누이 분포, 이항분포, 기하 분포, 음이항 분포, 포아송 분포, 초기하 분포

 

Random Variable, 확률변수; RV, rv

이전 단원에서 확률측도 $P$와 표본공간 $S$를 정의하였다. 확률모델에 확률변수를 정의할 것이다. 

직관적으로, 확률변수는 표본공간의 모든 가능한 결과(each possible outcome in the sample space)를 숫자로 대응하는 것으로 생각할 수 있다. 예를 들어 표본공간 $\{ \text{rain}, \ \text{snow} \}$에 대하여, 확률변수 $X$를 비가 오면 $X=3$으로, 눈이 오면 $X=-2.7$ 이런식으로 정의할 수 있다.

Random Variable(확률변수)는 표본공간 $S$에서 모든 실수 $R^1$(또는 $\mathbb{R}$)으로 대응하는 함수다.

Graphical representation of random variable $X$

Distributions of Random Variables, 확률변수의 분포

확률변수 $X$와 $\mathbb{R}$의 부분집합 $B$에 대하여, $X$의 분포는 확률 $P(X \in B)$의 모음이다.

Graphical representation of distribution of $X$

표본공간 $S$의 원소 $s$에 대하여 $X(s) \in B$를 만족하는 집합을 $\{ s \in S : X(s) \in B \}$로 표기하고, 그에 해당하는 확률 $P(\{ s \in S : X(s) \in B \})$을 계산하면 그것이 $X$의 분포가 된다.

 

Discrete Distributions, 이산 확률 분포

[Discrete, 이산확률변수]
확률변수 $X$가 $\displaystyle\sum_{x \ in R}P(X = x) = 1$을 만족하면, 이산적(discrete, 이산확률변수)이라 한다.
또한, 유한하거나 가산적인(finite or countable) 수열 $x_1, x_2, \dots$가 이산적인 실수이고 그에 대응하는 수열 $p_1, p_2, \dots $가 음이 아닌 실수이면서 $P(X=x_i)=p_i$로 정의할 때, $\sum_{i}p_i=1$이면 확률변수 $X$는 이산확률변수라고 한다.

[Probability (mass) function, 확률(질량)함수]
이산확률변수 $X$에 대하여 확률함수(확률질량함수) $p_X: \mathbb{R} \to [0, \ 1]$은 다음과 같이 정의한다.
\[ p_X(x) = P(X=x) \]

이산확률변수는 그래프로 그릴 때 bar-graph로 나타낼 수 있고, 막대들의 합은 1이다. ($\sum_{x}P(X=x) = 1$)

단순한 형태의 이산확률분포. $x$는 균등하지 않아도 된다.

 

Degenerate Distribution, 퇴화 분포

\[ p(x) = l_{c}(x) \]

이 확률분포는 $x=c$인 경우만 $p(c)=1$이고 그 외에는 $p(x)=0, \ x \neq c$인 확률질량함수를 갖는다.

$c$가 상수이지만 $c$ 역시 random variable이다.

 

 

Bernoulli distribution, 베르누이 분포, $X \sim Ber(\theta)$

\[ p(x) = \theta^x (1-\theta)^{1-x}, \quad x=0, 1 \]

Experiment: (unfair) 동전을 한 번 던져 윗면이 나올 확률이다. 

$S = \{ H, T \}$

 

Bernoulli trial

  • 각 trial의 결과는 성공/실패 뿐이다. 
  • 각 trial은 성공 확률을 갖는다.
  • 각 trial은 독립이다.

 

Binomial distribution, 이항 분포, $X \sim B(n, \theta)$

\[ p(x) = \dbinom{n}{x}\theta^{x} (1-\theta)^{n-x}, \quad x=0, 1, 2, \dots , n \]

베르누이 시행을 $n$번 시행한 것의 분포이다.

$S = \{ HH \dots H, \cdots, TTT \dots T \}$. 따라서 $|S| = 2^n$

$X$는 $n$번 시행하여 성공한 횟수.

이항분포는 $x \approx n\theta$ 에서 단 하나의 peak를 갖는다. (single mode)

probability measure이므로 $\sum_{x=0}^{n} \binom{n}{x}\theta^x (1-\theta)^{n-x}=(\theta + 1 - \theta)^n = 1$ 이다.

 

 

Geometric distribution, 기하 분포 $X \sim Geo(\theta)$

\[ p(x) = (1-\theta)^{x} \theta, \quad x=0, 1, 2, \dots \]

Experiment: 성공할 때 까지 계속 반복 시행

$X$: 성공할 때 까지 실패한 횟수

$S = \{ S, FS, FFS, \dots \}$

횟수에 대한 모델링을 할 때 자주 사용된다. (전염병 환자와 1번/2번/3번... 만나서 감염됨)

probability measure이므로 $\sum_{x=0}^{\infty}(1-\theta)^x\theta = \frac{\theta}{1-(1-\theta)}=1$

$p(x)$가 geometric series를 닮아서 geometricc distribution이라고 한다.

 

 

Memoryless property

\[ P(X \ge m + n | X \ge m) = P(X \ge n) \]

지나간 시행에 대하여 현재 시행이 영향을 받지 않는다.

 

 

Negative-Binomial distribution, 음이항분포, $X \sim NB(r, \theta)$

\[ p(x) = \dbinom{r - 1 + x}{x}\theta^{r} (1-\theta)^{x}, \quad x=0, 1, 2, \dots \]

기하분포의 일반화된 형태

$X$: $r$번 성공할 때까지 실패한 횟수

($x$번 실패와 $(r-1)$번의 성공이 혼재=$(r-1+x)$번 시행) $\times$ (마지막 $r$번째 성공)

single peak가 존재

 

 

Poisson distribution, 포아송분포, $X \sim \text{Poisson}(\lambda)$

\[ p(x) = \cfrac{\lambda e^{-\lambda}}{x!} \]

$X$: 정해진 기간동안 rare event가 발생할 횟수. 여기서 정해진 기간은 어떤 시간 기간이나 공간이 될 수 있다.

$\lambda$: rare event가 발생할 비율

 

포아송 분포의 증명은 $\theta = \lambda / n$인 이항분포에 대하여 $\lim_{n \to \infty}P(X=x) = \cfrac{\lambda^x}{x!}e^{-\lambda}$임을 보인다. (증명 생략)

 

이항분포 $X \sim B(n, \theta)$에서 $n$이 크고 $\theta$가 작으면, $\lambda = n \theta$인 포아송 분포로 근사할 수 있다.

$B(100, 0.1)$과 $\text{Poisson}(10)$

Approximate to binomial

가상의 항아리에는 1000개의 공이 있는데, 1개의 검은색 공과 999개의 흰색 공이 있다고 하자. 이때 확률변수 $X$를 "100번 복원추출 했을 때, 검은색 공이 나온 개수"라 하자. 이때 $P(X=5) = ?$

 

$X \sim B(100, 1/1000)$이므로 $P(X=x) = \dbinom{100}{5} \left( \cfrac{1}{1000} \right)^{5} \left( \cfrac{999}{1000} \right)^{95}$이므로 $P(X=5)$에 대입하면 된다.\

이때 검은공이 나타날 사건은 매우 희귀한 경우이므로 $\lambda = n\theta = 100*(1/1000)=0.1$인 포아송분포로 근사하여 계산할 수 있다. 따라서

$P(X=5) \approx \cfrac{e^{-0.1}(0.1)^5}{5!} \approx 7.54 \times 10^{-8} \approx = 0$

 

Poisson process

  • 한 구간은 평균적으로 $\lambda$번 event가 발생한다.
  • disjoint interval에서 일어난 사건은 독립이다.
  • rare event가 발생한 횟수는 구간의 길이에 비례한다.

 

 

Hypergeometric distribution, 초기하분포

\[ p(x) = \cfrac{\dbinom{M}{x} \dbinom{N-M}{n-x}}{\dbinom{N}{n}}, \quad \mathrm{max}(0, n+M-N) \le x \le \mathrm{min}(n, M) \]

초기하분포

 

전체 공간이 $N$이고 타겟이 되는 것의 개수가 $M$, 비복원 추출 횟수가 $n$일 때 그룹$M$의 원소의 개수를 $X$라 한 분포이다.

따라서 분모는 $\binom{N}{n}$이고, 그룹$M$에서 $x$개를 뽑으므로 $M$ choose $x$이기 때문에 $\binom{M}{x}$, 나머지 그룹의 크기인 $N-M$개에서 $n-x$개를 choose하므로 $\binom{N-M}{n-x}$이다.

 

만일 $N$과 $M$이 충분히 크다면, $\theta = \cfrac{M}{N}$인 이항분포에 근사한다. $\text{HG} \approx B(n, M/N)$

 

 

참고

5개의 이산확률분포를 파이썬 코드로 그려보면 아래 글도 참고해주세요.

https://trivia-starage.tistory.com/61

 

이산확률분포 그려보기 (Python)

파이썬 코드로 이산확률분포가 파라미터에 따라 어떻게 그려지는지 알아보자. import numpy as np from scipy.special import binom, comb import matplotlib.pyplot as plt Binomial Distribution, 이항분포 def binomial(x, n, theta):

trivia-starage.tistory.com

 

업데이트

2023.03.13. 이항분포에서 포아송분포 근사하는 경우 추가

728x90
반응형