본문 바로가기
스터디/확률과 통계

연속확률분포, Continuous Distribution

by 궁금한 준이 2023. 3. 16.
728x90
반응형

 

 

 

Keywords

연속확률변수, 확률밀도함수, 균등분포, 지수분포, 감마함수, 감마분포, 베타함수, 베타분포, 표준정규분포, 정규분포, 카이제곱분포

Continuous Random Variable, probability density function, density, density function, uniform distribution, exponential distribution, gamma function, gamma distribution, beta function, beta distribution, standard normal distribution, normal distribution, chi-squared distribution

 

 

Continuous Random Variable

확률변수 X가 모든 실수 xR에 대하여 P(X=x)=0이면 연속확률변수하라고 한다.
Density function

f:RR이고 f(x)0,xR이고 f(x)=1이면 함수 f(x)는 밀도함수(density function)라고 한다.
Note. 책이나 강의마다 density function을 probability density function(확률밀도함수, pdf, PDF)라고도 한다.
Absolutely Continuous

확률변수 X가 density function f에 대하여 
P(aXb)=abf(x)dxab
이면 absolutely continuous라고 한다.
Note. density function f의 height(함숫값)은 확률과 전혀 상관이 없다. f(x)>1이 가능하다.

매우 작은 양수 δ에 대하여, b=a+δ라 하자. 그러면

P(aXa+δ)=aa+δf(x)dxδf(a)

따라서 다음이 성립한다.

확률변수 X가 absolutely continuous random variable일 때, P(X=a)=0aR이 성립한다.

PROOF) P(X=a)=P(aXa)=aaf(x)dx=0

 

Uniform distribution, 균등분포, XU(θ1,θ2)

f(x)=1θ2θ1I[θ1,θ2]

 

Exponential distribution, 지수분포, XExp(λ)

f(x)=λeλx,x0

파라미터가 λ인 첫 번째 포아송 사건이 일어날 때까지 기다린 시간.

기계 등의 수명(life span)에 자주 사용되는 분포이다.

λ=2인 지수분포

 

Memoryless Property, 무기억성(비기억성)

지수분포를 따르는 확률변수 X는 무기억성이다. 이미 a 단위시간 지났을 경우는 무시할 수 있다.

P(Xa+b|Xa)=P(Xb)

PROOF)

P(Xx)=xλeλdx=eλx 이므로

P(Xa+b|Xa)=P(X>a+b)P(Xa)=eλ(a+b)eλa=eλb=P(Xb)

 

 

Gamma distribution, 감마분포, XΓ(α,λ)

f(x)=λαΓ(α)xα1eλx

Gamma function, 감마함수
Γ(α)=0tα1etdt,α>0

감마함수의 몇가지 성질
(1) Γ(α+1)=αΓ(α)
    (1.1) 특히 자연수 n에 대하여 Γ(n)=(n1)! 이다.
    (1.2) Γ(1)=1(0!=1)
(2) Γ(0.5)=π
Note 1: 책에 따라 감마함수의 두 번째 파라미터를 β=1λ로 표기할 수 있다.
Note 2: 감마함수는 density function이 아니다. 

 

Gamma function example

위의 (2.2)에 따라 감마함수의 0.5 단위는 손으로 계산이 가능하다.

Γ(2.5)=32Γ(12)=3212Γ(12)=34π

 

Gamma density는 아래와 같이 정의된다. (이것이 감마분포의 pdf이다)

f(x)=λαΓ(α)xα1eλx

 

지수분포는 감마분포의 α=1인 경우로 해석할 수 있다. (Exp(λ)=Γ(1,λ))

 

 

kernel of density

감마분포에 사용되는 PDF는 감마함수의 내부의 피적분함수의 적분 결과가 1이 되도록 정규화한다고 생각하면 된다.

λαΓ(α)를 Normalizing constant, xα1eλx를 kernel of density라고도 부른다.

 

kernel of density로 이루어진 적분은 부분적분을 이용하지 않고도 간단하게(?) 계산할 수 있다.

x2e3x2=α1,3=λ로 해석하면 Γ(3,3)의 kernel이므 0x2e3xdx=Γ(3)33=227 이다.

 

 

감마분포의 확률밀도함수

α>0에 따라 모양이 바뀌므로 shape parameter라고도 부른다.

(1) α<1 x0일 때 로 발산, 아래로 감소하는 그래프

(2) α=1 지수분포와 같은 그래프

(3) α>1 왼쪽으로 치우친 그래프

 

여러가지 감마분포의 확률밀도함수

import numpy as np
from scipy.stats import beta
from scipy.stats import gamma

import matplotlib.pyplot as plt

params = [0.5, 1, 1.2]
x = [np.linspace(gamma.ppf(0.001, alpha), gamma.ppf(0.999, alpha), 200) for alpha in params]

fig, axes = plt.subplots(1, len(params), figsize=(20 ,4))
fig.suptitle('Gamma distributions', fontsize=16)

for i in range(len(params)):
  axes[i].plot(x[i], gamma.pdf(x[i], params[i]))
  axes[i].set_ylim(0, 1.5)
  axes[i].set_xlim(0, 3)
  if params[i] > 1:
    axes[i].set_ylim(0, max(gamma.pdf(x[i], params[i]) * 1.05))
  axes[i].set_title(f'alpha={params[i]}')

 

Beta distributin, 베타분포, XBeta(α,β)

베타함수(B)는 아래와 같이 정의된다.

B(α,β)=Γ(α)Γ(β)Γ(α+β)=01tα1(1t)β1dt

 

Bayesian statistics에서 자주 사용된다.

 

베타분포는 베타함수의 피적분함수의 적분결과가 1이 되도록 정규화한다고 생각하면 된다.

f(x)=xα1(1x)β1B(α,β)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1, 0x1

 

kernel of density

베타분포에서도 베타함수 자체가 density하지 않기 때문에 적분의 결과가 1이 되도록 정규화해준다고 생각하면된다. 감마분포에서와 마찬가지고, xα1(1x)β1은 kernel이고, 분모의 Beta(α,β)는 normalizing constant라고도 한다.

 

(1) 01x7(1x)8dx를 구해보자. kernel은x7(1x)8, normalizing constant는 Beta(8,9)이므로

01x7(1x)8dx=Beta(8,9)=7! 8!16!

 

베타분포의 확률밀도함수

(1) α<1,β<1이면 아래로 볼록한 그래프.

(2) α,β 중 하나는 1보다 크고, 하나는 1보다 작은 양수일 때, 한 쪽으로 증가/감소하는 그래프

    (2.1) 0<β<1<α 이면 x1일 때 로 발산하는 증가하는 그래프

    (2.2) 0<α<1<β 이면 x0일 때 로 발산하는 감소하는 그래프 

(3) α>1,β>1이면 위로 볼록한 그래프

여러가지 베타분포의 확률밀도함수

import numpy as np
from scipy.stats import beta
from scipy.stats import gamma

import matplotlib.pyplot as plt

params = [(0.5, 0.5), (1.2, 0.5), (0.5, 1.2), (2, 2), (2, 5), (5, 2)]

fig, axes = plt.subplots(1, len(params), figsize=(20 ,4))
fig.suptitle('Beta distributions', fontsize=16)

for ax, (a, b) in zip(axes, params):
  x = np.linspace(beta.ppf(0.001, a, b), beta.ppf(0.999, a, b), 200)
  ax.plot(x, beta.pdf(x, a, b))
  ax.set_ylim(0, 2.5)
  ax.axvline(x=0, linestyle='--', color='black')
  ax.axvline(x=1.0, linestyle='--', color='black')
  ax.set_title(f'a={a}, b={b}')

 

참고로 B(1,1)=U(0,1)과 같다.

 

Normal distribution, 정규분포, XN(μ,σ2)

표준정규확률밀도함수(standard normal density)는 ϕ로 표기하고 아래와 같다.

ϕ(x)=12πex2/2

 

정규분포함수는 아래와 같다.

f(x)=1σϕ(xμσ)1σ2πe(xμ)22σ2

 

ϕ(x)가 density function임을 보이는 방법은 크게 2가지 있다.

(1) I=ex2dx라하면

I2=(ex2/2dx)2=(ex2/2dx)(ey2/2dy)=e(x2+y2)dxdy 

x=rcosθ, y=rsinθ로 극좌표로 변환하면 적분구간도 바뀌어서

I2=02π0er2/2r drdθ

u=r22로 치환하면 du=rdr이므로 치환적분과 이상적분을 하면

I2=02π0dududθ=02π(limt[eu]u=0u=t)dθ=02π1dθ=2π

ex2/2>0이므로 I=2π이다.

 

(2) 대칭성을 이용하여 ϕ(x)dx=20ϕ(x)dx

u=12x2로 치환하면 du=xdx이므로 dx=1xdu=12udu

20ϕ(x)dx=2012π12ueudu=1π0u12eu

u12euα=12,λ=1인 감마함수의 kernel이고 Γ(12)=π이므로

1π0u12eu=1ππ=1

 

kernel of density

앞의 density function들과 마찬가지로 1σ2π를 normalizing constant, e(xμ)/2σ2를 kernel이라 부른다.

 

앞의 density function의 예시와 마찬가지로, kernel을 이용하여 몇가지 함수의 적분을 쉽게(?) 구할 수 있다.

(1) e3x2dx를 구해보자. e3x2N(0,1/6)의 kernel이므로 normalizing constant를 곱하면 

e3x2dx=2π16

(2) ex2+2xdx를 구해보자. 피적분함수는 N(1,(12)2)의 kernel이고 평행이동을 고려하면

ex2+2xdx=e(x1)2e dx=πe

 

Empirical Rule

68-95-99.7 규칙이라고도 한다. (그 쉽다는 GRE quantitative에서도 이 세 숫자는 외워야 풀 수 있다.)

  • P(μσ<X<μ+σ)=0.68
  • P(μ2σ<X<μ+2σ)=0.95
  • P(μ3σ<X<μ+3σ)=0.997

 

Chi-squared distribution, χ2(k)

Recall that

Gamma(α,λ)=λαΓ(α)xα1eλx, x>0,α>0,λ>0

 

카이제곱 분포는 자유도(degrees of freedom)이라는 파리미터만 있고, 감마함수의 특별한 형태로 정의한다.

χ2(k)=Gamma(k2,12)

따라서 density function은

f(x)=(12)(k2)Γ(k2)x(k2)1e12x

728x90
반응형