Sampling Distributions (표본 분포)
같은 분포에서 독립적으로 추출한 확률변수 $X_1, \dots, X_n$ (i.i.d)에 대하여 새로운 확률변수 $Y$를 도입하자.
이때 어떤 함수 $h$(예를 들어, $h$는 평균이나 분산과 같은 함수가 가능하다.)의 형태일 수 있다.
\[ Y = h(X_1, \dots, X_n) \]
이때 $Y$의 분포를 sampling distribution(표본 분포)라고 부른다.
확률변수 $Y$는 $n$에 의존적이므로 우리는 확률변수로 이루어진 수열을 생각해볼 수 있다. 즉 $Y_1, Y_2, \dots, Y_n, \dots$ 말이다. 우리는 $n$이 커짐에 따라 $Y_n$이 $Y$로 수렴하기를 바란다.
4.5에서 배울 내용인 몬테카를로 시뮬레이션을 통해 $Y$의 분포를 살펴볼 수 있다. 그러나 컴퓨터의 도움이 필요하다.
Convergence in Probability (확률 수렴)
확률변수 $X_n$이 $Y$로 수렴하는지 어떻게 판단할 수 있을까?
수열과 다르게 확률변수는 그 자체로 randomness가 존재하기 때문에 단순히 계산하기 어려워 보인다.
가장 기초적인 방법은 $X_n$과 $Y$의 차가 매우 작아서 그 확률이 $0$이 되면 수렴한다고 생각할 수 있을 것이다.
Convergence in probability, 확률 수렴
무한한 확률변수의 수열 $X_1, \dots $, 또다른 확률변수 $Y$, 어떤 양수 $\epsilon > 0$에 대하여 $\lim_{n \to \infty}P(|X_n - Y| \ge \epsilon) = 0$ 을 만족하면, $\{ X_n \}$이 $Y$로 수렴한다고 하고, $X_n \overset{P}{\to} Y$로 표기한다.
Note: 책에 따라 부등호의 방향이 반대로 하여 $\lim_{n \to \infty}P(|X_n - Y| < \epsilon) = 1$ 로 표기할 수 있다.
Example 1
$U \sim Uniform[0, 1]$이고 $X_n$의 값이 $U \le \frac{2}{3}-\frac{1}{n}$이면 $3$, 그 외는 $8$이라 하자.
그리고 $Y$는 $U \le \frac{2}{3}$이면 $3$이고 그 외는 $8$이라 하자. 이때 확률을 계산하면
$P(|X_n - Y| \ge \epsilon) \ge P(X_n \neq Y) = P(\frac{2}{3} - \frac{1}{n} < U \le \frac{2}{3}) = \frac{1}{n}$이고 $n \to \infty$이면 $\frac{1}{n} \to 0$이므로 $X_n \overset{P}{\to} Y$ 이다.
Example 2
$Z_n \sim Exp(n)$이고 $Y=0$이라 하자. 이때 확률을 계산하면
$P(|Z_n - Y| \ge \epsilon) = P(Z_n \ge \epsilon) = \int_{\epsilon}^{\infty}ne^{-nx} dx = e^{-n\epsilon}$
$n \to \infty$이면 $0$으로 수렴한다. 따라서 $Z_n \overset{P}{\to} Y$ 이다.
The Weak Law of Large Numbers (WLLN) (큰 수의 약한 법칙)
위의 convergence in probability를 이용하여 표본평균과 표본분산에 대한 정보를 얻을 수 있다.
이를 큰 수의 약한 법칙이라고 부른다.
The Weak Law of Large Numbers (WLLN), 큰 수의 약한 법칙
서로 상관관계가 없는(uncorrelated) 무한한 확률변수의 수열 $X_1, \dots $이 같은 평균 $\mu$와 분산 $\sigma^2$를 갖는다고 하자.(단, $\sigma$의 상한은 $v$이고 $v < \infty$). 이때
\[ \overline{X} = \cfrac{1}{n}\sum_{i=1}^{n} X_i \]
는 $\mu$로 확률수렴한다. 즉 $\bar{X} \overset{P}{\to} \mu$ 이다.
$X_i$는 independent 조건이 아니라 uncorrelated 조건이다.
Proof
$E(X_i)=\mu$이고, linearity of expected value를 이용하여 $E(\overline{X}) = \frac{1}{n}(n\mu) = \mu$ 이다.
$V(\overline{X}) = \frac{1}{n^2}(V(X_1) + \cdots + V(X_n)) = \frac{\sigma^2}{n}$ (단, $Cov(X_i, X_j)=0)$
체비셰프 부등식을 이용하면
$E(|\overline{X} - \mu| > \epsilon) \le \cfrac{V(\overline{X})}{\epsilon^2} = \cfrac{\sigma^2}{n \epsilon^2} \to 0$
Almost Sure Convergence (거의 확실한 수렴)
Almost Sure Convergence, 거의 확실한 수렴
무한 수열 $X_1, X_2, \dots, $에 대하여 $P(\lim_{n \to \infty}X_n = X)=1$이면 $\{ X_i \}$가 거의 확실하게 수렴한다고 하고 $X_n \overset{a.s.}{\to}X$라고 표기한다.
Almost Sure Convergence는 Convergence in probability를 포함한다. 즉
\[ X_n \overset{a.s.}{\to} Y \Rightarrow X_n \overset{P}{\to}X \]
Note: Convergence with Probability 1라고도 하여 $X_n \overset{w.p.1}{\to} X$로 표기하기도 한다.
The Law of Large Numbers (LLN) (큰 수의 법칙)
거의 확실한 수렴을 통해 큰 수의 약한 법칙을 더 강한 조건을 만족시킬 수 있다.
그 법칙을 큰 수의 법칙이라 한다.
The (Strong) Law of Large Numbers (LLN), 큰 수의 법칙
$X_1, X_2, \dots, $가 i.i.d.이고 각 확률변수의 기댓값이 $\mu$라 하자. 이 때
\[ P \left( \lim_{n \to \infty}\overline{X} = \mu \right) = 1 \]
$\overline{X} \overset{a.s.}{\to} \mu$ 이다.
큰 수의 법칙은 몬테카를로 시뮬레이션의 기반이 된다.
Monte Carlo Approximation (1) Compute $\pi/4$
$U, V \sim Uniform[0, 1]$ 에 대하여 $X = 1 (U^2+V^2 \le 1), X=0 (\text{otherwise})$라 하자.
$E(X) = P(U^2 + V^2 \le 1) = \frac{\pi}{4}$임을 이용한다.
위 과정을 많이 반복하여 $\overline{X}$을 구한다.
LLN에 의하여 $\overline{X} \overset{a.s.}{\to} \frac{\pi}{4}$가 된다.
Convergence in Distribution (분포 수렴)
Convergence in Distribution, 분포수렴
확률변수 $X_1, X_2, \dots $에 대하여 $\displaystyle\lim_{n \to \infty}P(X_n \le x) = P(X \le x)$이면 분포 수렴한다고 하고 $X_n \overset{D}{\to} X$로 표기한다.
Example 3
$X_n \sim Binomial(n, \frac{\lambda}{n}$이고 $X \sim Poisson(\lambda)$일 때 $X_n$이 $X$로 수렴하는지 확인해보자.
\[ P(X_n=i) = \dbinom{n}{i} (\cfrac{\lambda}{n})^{i} (1-\cfrac{\lambda}{n})^{n-i} \to e^{-\lambda}\cfrac{\lambda^i}{i!} \]
따라서 $F_{X_n}(x) \to F_X(x)$이다.
Summary
Convergence in probability: $P(|X_n-X| > \epsilon) \to 0 \Longleftrightarrow X_n \overset{P}{\to}X$
Almost Sure Convergence: $P(\displaystyle\lim_{n \to \infty}X_n = X)=1 \Longleftrightarrow X_n \overset{a.s.}{\to}X$
Convergence in distribution: $F_{X_n}(x) \to F_{X}(x) \Longleftrightarrow X_n \overset{D}{\to}X$ (단 $F$는 CDF)