본문 바로가기
스터디/확률과 통계

Chapter 4. Continuous Variables and Their Probability Distributions

by 궁금한 준이 2022. 7. 30.
728x90
반응형

 

[Mathematical Statistics with Applications 7th Edition, Wackerly, Mendenhall, Scheaffer]

연속확률변수와 연속확률분포

4.1 Introduction

(생략)

4.2 The Probability Distribution for a Continuous Random Variable

확률변수 $Y$가 누적분포함수를 $F(y)$라 한다. $F(y) = P(Y \leq y)$ for $-\infty < y < \infty$

(이 교재에서 cumulative distribution function에서 cumulative를 생략하고 있다)

 

누적분포함수의 성질들

1) $F(-\infty) \equiv \lim_{y \to -\infty}F(y) = 0$

2) $F(\infty) \equiv \lim_{y \to \infty}F(y) = 1$

3) $y_1 < y_2 이면 F(y_1) \leq F(y_2)$. $F$는 nondecreasing function

 

$F(y)$가 연속 확률 변수 $Y$ 에 대한 누적분포함수일 때, $f(y) = F'(y)$ 인 $f(y)$를 확률밀도함수(probability density function)이라 한다. 즉 $$F(y) = \int_{-\infty}^{y}f(t)dt$$

 

확률밀도함수의 성질

1) $f(y) \ge 0$

2) $\int_{-\infty}^{\infty}f(y)dy = 1$

 

확률변수 $Y$가 확률밀도함수 $f(y)$를 갖고, $a < b$일 때, 구간 $[a, b]$의 확률은

$$P(a \le Y \le b) = \int_a^bf(y)dy = F(b) - F(a)$$

4.3 Expected Values for Continuous Random Variables

$$E(Y) = \int_{-\infty}^{\infty}yf(y)dy$$

$$E[g(Y)] = \int_{-\infty}^{\infty}g(y)f(y)dy$$

4.4 The Uniform Probability Distribution

구간 $(\theta_1, \theta_2)$에서 정의된 균등분포의 확률밀도함수는

균등분포의 확률밀도함수

밀도함수의 형태를 정해주는 상수를 모수(parameters)라 부른다.

$$\mu = E(Y) = \frac{\theta_1 + \theta_2}{2}$$

$$\sigma^2 = V(Y) = \frac{(\theta_2 - \theta_1)^2}{12}$$

4.5 The Normal Probability Distribution

가장 많이 사용되는 연속확률분포는 당연히 정규분포(normal distribution)이다.

7장의 중심극한정리를 이용하면 자연에서 정규분포가 많이 등장하는 이유를 알 수 있다.

정규분포는 parameter로 $\mu, \sigma$를 갖는다.

 

표준정규분포변수(standard normal random variable) $Z = \frac{Y - \mu}{\sigma}$로 변환할 수 있다

4.6 The Gamma Probability Distribution

어떤 확률변수들은 항상 nonnegative하면서 여러 이유로 skewed(nonsymmetric)한 형태를 갖는다. 

대부분의 데이터는 origin에 몰려있고 y가 커지면 점진적으로 밀도함수가 감소한다.

이러한 확률분포를 따르는 예시는 다음과 같다

1) 항공기 엔진의 오작동 지속 시간(the lengths of time between malfunctions for aircraft engines)

2) 슈퍼마켓의 계산대에 도착하는 시간 간격

3) 자동차/항공기의 유지보수 점검을 하는 시간 길이

 

이러한 확률분포를 따르는 모델을 감마밀도함수(gamma density function)이라 부른다.

감마분포

$\Gamma(1) = 1, \Gamma(\alpha) = (\alpha - 1)\Gamma(\alpha - 1), \Gamma(n) = (n - 1)! $, (단, $n$은 정수)

(좌측) 감마분포의 형태. 좌측으로 치우친 모양이다. (우측) $\beta = 1$일 때 $\alpha$에 따라 변하는 감마밀도함수

$\alpha$는 shape parameter(형태모수)라고도 불리고, 감마분포의 모양을 결정한다.

$\beta$는 scale parameter(척도모수)라 불리고, 확률변수에 양의 수를 곱하여 그 크기를 정한다.

 

$\alpha$가 정수일 때, 감마함수는 어떤 포아송함수의 합으로 표현할 수 있다.

$\alpha$가 정수가 아니고 $0 < c < d < \infty$일 때 $$\int_{c}^{d}\frac{y^{\alpha - 1}e^{-y/\beta}}{\beta^{\alpha} \Gamma(\alpha)}dy$$ 이므로 감마함수의 정적분을 직접 구할 수 없다. ($\alpha = 1$인 경우에는 지수분포이므로 제외) 따라서 table을 이용하여 계산한다.

 

다행히도, 감마분포의 평균과 분산은 $\alpha, \beta$를 안다면 매우 쉽게 구할 수 있다.

감마분포의 평균과 분산

양의 정수 $\nu$에 대하여 $Y$가 $\alpha = \nu / 2$이고 $\beta=2$ 감마분포를 따르면, 확률변수 $Y$는 카이제곱분포(chi-square distribution)를 따른다. (필요충분조건). 카이제곱분포의 평균과 분산은 다음과 같다. ($\chi^2$ 분포)

카이제곱분포의 평균과 분산

또, 감마밀도함수에서 $\alpha = 1$인 경우에는 지수밀도함수(exponential density function)라 하고 지수분포를 따른다. (책에 따라 $\lambda = \frac{1}{\beta}$로 표기하는 경우도 많다.)

지수분포

지수밀도함수는 전자부품의 수명 길이를 모델링할 때 자주 사용된다. 

만일 기계가 이미 동작한 시간의 길이는 이후에 적어도 $b$ 단위시간동안 동작하는 것에 영향을 주지 않는다. 즉, $a$이상 정상 동작했다는 가정하에, $a + b$이상 동작할 확률은, $b$이상 동작할 확률에 영향을 미치지 않는다. 퓨즈가 이 예시에 적합하다. (어떤 장치가 고장나지 않았다는 조건에서 남은 수명은, 그 시간 이정의 장치 수명에 대한 확률밀도함수와 같다. 즉, 그 시간 경과 후에 다시 시점이 0인 곳에서 다시 시작하는 것과 같음) (장치가 2년 후에 고장날 확률이 80%라면, 2년이 지났어도 다시 2년 후에 고장날 확률은 80%라는 뜻) (과거 시간에 영향을 받지 않는다)

memoryliss property. 비기억성(무기억성)

지수분포의 평균과 분산은 다음과 같다 (교재에 따라 다르지만 여기선 위에 작성한 식을 따른다)

지수분포의 평균과 분산

 

4.7 The Beta Probability Distribution

베타밀도함수는 두개의 모수를 갖고 폐구간 $0 \le y \le 1$에서만 정의된다. 

비율과 관련된 모델링에 자주 사용된다. (e.g. 화합물에서 불순물의 비율, 기계가 수리되는 시간의 비율)

베타확률밀도함수
베타분포의 평균과 분산

 

 

728x90
반응형