Why do we need statistics?
지금까지 통계 이론을 많이 배웠다. 그렇다면 통계적 방법이 유용한 경우는 언제일까?
스탠포드 심장 이식 연구를 예시로 하여 생각을 해보자. 이 논문에는 심장 이식 프로그램의 성공 여부를 논하고 있다. 우리는 심장 이식 수술을 받은 환자가 그렇지 않은 환자보다 더 오래 사는지 관심을 가질 것이다. 그러나 이는 수술을 받은 환자와 수술을 받지 않은 환자 모두 사망할 때까지 기다려야 알 수 있다. 대신에, 심장 이식 수술을 받은 환자의 수명을 비교할 수 있다.
한가지 접근 방법은 심장 이식 수술을 받은 환자와, 그렇지 않은 환자의 수명 분포가 있다고 가정하는 것이다. 이식을 받은 집단을
그러나 실제로는 표본의 크기가 크지 않기 때문에 불확실성에 직면하게 된다.
Probability Model
만일 우리가 확률 모형(probability model)을 알고 있다면 미래 불확실성을 계산할 수 있다.
확률 분포를 사용하여 미래 반응을 예측하거나 주어진 값이 분포의 가능한 미래 값으로 타당한지 여부를 평가할 수 있습니다.
예를 들어 평균수명이 1년인 어떤 기계의 수명은
이 기계가 5년 이상 동작할 확률은
또한 최빈값(mode), 평균(mean), 중앙값(median) 등도 계산할 수 있다.
Note: 연속확률분포에서 mode는 density가 최댓값이다.
Example. Beta Distribution
(평균을 구하는 것은 생략)
일반적으로 mean은 MSE를 최소화하는 값이므로
또한
따라서 mode보다 mean이
Example. Geometric Distribution
기하분포는 감소함수이므로 가장 짧은 구간은
따라서
따라서
Statistical Models
위의 확률 모델은 확률 분포를 완전히 알고있는 경우에 사용할 수 있다. 그러나 많은 경우에 확률 자체에 대한 불확실성을 갖는다. 즉 우리가 얻은 data를 바탕으로
통계모델(statistical model)은 집합
I.I.D. Random Sample
single
i.i.d. sample
Example. Bernoulli Distribution
Example. Normal Distribution
Types of Inference
Problem of estimation
Choose an estimate of
Credible region (Confidence retion) construction
Hypothesis assessment (Hypothesis testing)
데이터