Keywords
random variables, distribution, discrete distribution, degenerate distribution, bernoulli distribution, binomial distribution, geometric distribution, nagative-binomial distribution, poisson distribution, hypergeometric distribution
확률변수, 분포, 이산 확률 분포, 퇴화 분포, 베르누이 분포, 이항분포, 기하 분포, 음이항 분포, 포아송 분포, 초기하 분포
Random Variable, 확률변수; RV, rv
이전 단원에서 확률측도 $P$와 표본공간 $S$를 정의하였다. 확률모델에 확률변수를 정의할 것이다.
직관적으로, 확률변수는 표본공간의 모든 가능한 결과(each possible outcome in the sample space)를 숫자로 대응하는 것으로 생각할 수 있다. 예를 들어 표본공간 $\{ \text{rain}, \ \text{snow} \}$에 대하여, 확률변수 $X$를 비가 오면 $X=3$으로, 눈이 오면 $X=-2.7$ 이런식으로 정의할 수 있다.
Random Variable(확률변수)는 표본공간 $S$에서 모든 실수 $R^1$(또는 $\mathbb{R}$)으로 대응하는 함수다.
Distributions of Random Variables, 확률변수의 분포
확률변수 $X$와 $\mathbb{R}$의 부분집합 $B$에 대하여, $X$의 분포는 확률 $P(X \in B)$의 모음이다.
표본공간 $S$의 원소 $s$에 대하여 $X(s) \in B$를 만족하는 집합을 $\{ s \in S : X(s) \in B \}$로 표기하고, 그에 해당하는 확률 $P(\{ s \in S : X(s) \in B \})$을 계산하면 그것이 $X$의 분포가 된다.
Discrete Distributions, 이산 확률 분포
[Discrete, 이산확률변수]
확률변수 $X$가 $\displaystyle\sum_{x \ in R}P(X = x) = 1$을 만족하면, 이산적(discrete, 이산확률변수)이라 한다.
또한, 유한하거나 가산적인(finite or countable) 수열 $x_1, x_2, \dots$가 이산적인 실수이고 그에 대응하는 수열 $p_1, p_2, \dots $가 음이 아닌 실수이면서 $P(X=x_i)=p_i$로 정의할 때, $\sum_{i}p_i=1$이면 확률변수 $X$는 이산확률변수라고 한다.
[Probability (mass) function, 확률(질량)함수]
이산확률변수 $X$에 대하여 확률함수(확률질량함수) $p_X: \mathbb{R} \to [0, \ 1]$은 다음과 같이 정의한다.
\[ p_X(x) = P(X=x) \]
이산확률변수는 그래프로 그릴 때 bar-graph로 나타낼 수 있고, 막대들의 합은 1이다. ($\sum_{x}P(X=x) = 1$)
Degenerate Distribution, 퇴화 분포
\[ p(x) = l_{c}(x) \]
이 확률분포는 $x=c$인 경우만 $p(c)=1$이고 그 외에는 $p(x)=0, \ x \neq c$인 확률질량함수를 갖는다.
$c$가 상수이지만 $c$ 역시 random variable이다.
Bernoulli distribution, 베르누이 분포, $X \sim Ber(\theta)$
\[ p(x) = \theta^x (1-\theta)^{1-x}, \quad x=0, 1 \]
Experiment: (unfair) 동전을 한 번 던져 윗면이 나올 확률이다.
$S = \{ H, T \}$
Bernoulli trial
- 각 trial의 결과는 성공/실패 뿐이다.
- 각 trial은 성공 확률을 갖는다.
- 각 trial은 독립이다.
Binomial distribution, 이항 분포, $X \sim B(n, \theta)$
\[ p(x) = \dbinom{n}{x}\theta^{x} (1-\theta)^{n-x}, \quad x=0, 1, 2, \dots , n \]
베르누이 시행을 $n$번 시행한 것의 분포이다.
$S = \{ HH \dots H, \cdots, TTT \dots T \}$. 따라서 $|S| = 2^n$
$X$는 $n$번 시행하여 성공한 횟수.
이항분포는 $x \approx n\theta$ 에서 단 하나의 peak를 갖는다. (single mode)
probability measure이므로 $\sum_{x=0}^{n} \binom{n}{x}\theta^x (1-\theta)^{n-x}=(\theta + 1 - \theta)^n = 1$ 이다.
Geometric distribution, 기하 분포 $X \sim Geo(\theta)$
\[ p(x) = (1-\theta)^{x} \theta, \quad x=0, 1, 2, \dots \]
Experiment: 성공할 때 까지 계속 반복 시행
$X$: 성공할 때 까지 실패한 횟수
$S = \{ S, FS, FFS, \dots \}$
횟수에 대한 모델링을 할 때 자주 사용된다. (전염병 환자와 1번/2번/3번... 만나서 감염됨)
probability measure이므로 $\sum_{x=0}^{\infty}(1-\theta)^x\theta = \frac{\theta}{1-(1-\theta)}=1$
$p(x)$가 geometric series를 닮아서 geometricc distribution이라고 한다.
Memoryless property
\[ P(X \ge m + n | X \ge m) = P(X \ge n) \]
지나간 시행에 대하여 현재 시행이 영향을 받지 않는다.
Negative-Binomial distribution, 음이항분포, $X \sim NB(r, \theta)$
\[ p(x) = \dbinom{r - 1 + x}{x}\theta^{r} (1-\theta)^{x}, \quad x=0, 1, 2, \dots \]
기하분포의 일반화된 형태
$X$: $r$번 성공할 때까지 실패한 횟수
($x$번 실패와 $(r-1)$번의 성공이 혼재=$(r-1+x)$번 시행) $\times$ (마지막 $r$번째 성공)
single peak가 존재
Poisson distribution, 포아송분포, $X \sim \text{Poisson}(\lambda)$
\[ p(x) = \cfrac{\lambda e^{-\lambda}}{x!} \]
$X$: 정해진 기간동안 rare event가 발생할 횟수. 여기서 정해진 기간은 어떤 시간 기간이나 공간이 될 수 있다.
$\lambda$: rare event가 발생할 비율
포아송 분포의 증명은 $\theta = \lambda / n$인 이항분포에 대하여 $\lim_{n \to \infty}P(X=x) = \cfrac{\lambda^x}{x!}e^{-\lambda}$임을 보인다. (증명 생략)
이항분포 $X \sim B(n, \theta)$에서 $n$이 크고 $\theta$가 작으면, $\lambda = n \theta$인 포아송 분포로 근사할 수 있다.
Approximate to binomial
가상의 항아리에는 1000개의 공이 있는데, 1개의 검은색 공과 999개의 흰색 공이 있다고 하자. 이때 확률변수 $X$를 "100번 복원추출 했을 때, 검은색 공이 나온 개수"라 하자. 이때 $P(X=5) = ?$
$X \sim B(100, 1/1000)$이므로 $P(X=x) = \dbinom{100}{5} \left( \cfrac{1}{1000} \right)^{5} \left( \cfrac{999}{1000} \right)^{95}$이므로 $P(X=5)$에 대입하면 된다.\
이때 검은공이 나타날 사건은 매우 희귀한 경우이므로 $\lambda = n\theta = 100*(1/1000)=0.1$인 포아송분포로 근사하여 계산할 수 있다. 따라서
$P(X=5) \approx \cfrac{e^{-0.1}(0.1)^5}{5!} \approx 7.54 \times 10^{-8} \approx = 0$
Poisson process
- 한 구간은 평균적으로 $\lambda$번 event가 발생한다.
- disjoint interval에서 일어난 사건은 독립이다.
- rare event가 발생한 횟수는 구간의 길이에 비례한다.
Hypergeometric distribution, 초기하분포
\[ p(x) = \cfrac{\dbinom{M}{x} \dbinom{N-M}{n-x}}{\dbinom{N}{n}}, \quad \mathrm{max}(0, n+M-N) \le x \le \mathrm{min}(n, M) \]
전체 공간이 $N$이고 타겟이 되는 것의 개수가 $M$, 비복원 추출 횟수가 $n$일 때 그룹$M$의 원소의 개수를 $X$라 한 분포이다.
따라서 분모는 $\binom{N}{n}$이고, 그룹$M$에서 $x$개를 뽑으므로 $M$ choose $x$이기 때문에 $\binom{M}{x}$, 나머지 그룹의 크기인 $N-M$개에서 $n-x$개를 choose하므로 $\binom{N-M}{n-x}$이다.
만일 $N$과 $M$이 충분히 크다면, $\theta = \cfrac{M}{N}$인 이항분포에 근사한다. $\text{HG} \approx B(n, M/N)$
참고
5개의 이산확률분포를 파이썬 코드로 그려보면 아래 글도 참고해주세요.
https://trivia-starage.tistory.com/61
업데이트
2023.03.13. 이항분포에서 포아송분포 근사하는 경우 추가
'스터디 > 확률과 통계' 카테고리의 다른 글
연속확률분포, Continuous Distribution (0) | 2023.03.16 |
---|---|
이산확률분포 그려보기 (Python) (0) | 2023.03.10 |
중앙값 추정하기. Median of Grouped Data using Median Class (0) | 2023.03.07 |
Ch1. Probability Models (0) | 2023.03.04 |
[확률] 생일문제 (0) | 2023.03.02 |