728x90 반응형 스터디/확률과 통계57 [비모수 통계] 비모수 통계학은 무엇인가? 비모수 통계학 (Nonparametric Statistics)모수적 통계학 (Parametric Statistics)의 가정과 한계처음 통계를 배울 때 가장 많이 접하는 내용은 사실 모수적 통계학이다. 여기서의 통계적 분석은 보통 다음의 내용을 가정(전제)하여 전개된다.모집단이 어떤 분포를 따른다. (보통 정규분포)그 분포는 모수(parameter)로 요약된다. 예를 들어, 베르누이 분포는 하나의 모수 (성공확률: \( p \)), 정규분포는 두개(평균과 분산: \( \mu, \sigma^2\) )로 요약된다.우리가 가진 표본(sample)은 이 모집단에서 무작위로 추출된 것이다.이런 가정이 가능한 이유는 중심극한정리때문이다. 표본 크기가 충분히 크다면(이론상 \( n \ge 30 \), 모집단 분포에 .. 2025. 4. 6. 단순선형회귀 (Simple Linear Regression Model) Simple Linear Regression (단순 선형회귀)Model Definition and Assumptions$n$개의 관측된 데이터 $(x_1, y_1), \dots, (x_n, y_n)$에 대하여 $x$와 $y$가 어떻게 연관되어있는지 알고싶다.특별히, 선형적 관계에 있는 모형을 설계할 수 있다.\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i \quad \epsilon_i \sim N(0, \sigma^2) \]$y$를 $x$에 따른 확률변수로 생각하여 다음과 같이 모형을 설계한다.\[ Y_i \sim N(\beta_0 + \beta_1 x_i, \sigma^2) \]※ $x$는 predictor/explanatory/independent variable로 불린.. 2024. 6. 2. 일원분류 분산분석 (One-Factor ANOVA) One-Factor Analysis of Variance (ANOVA)Analysis of Variance (ANOVA)모집단이 2개의 경우 모평균(또는 모비율)을 비교하는 방법을 다루었다.이제 모집단이 3개 이상인 경우에 대해 생각해보자.기본적인 아이디어는 통계적 분석(statistical analysis)이 같은지 확인하는 것이다. 여러개의 모집단에서 추출된 독립 표본의 집합을 completely randomized design(완전임의배치법)이라 한다.그리고 분산분석(analysis of variance, ANOVA)라는 통계적 방법론을 이용한다. 모집단이 2개인 경우, pair인지 independent인지 구분하여 검정하였다.모집단이 3개 이상인 경우에도 비슷한 방식으로 구분한다.첫번째는 bloc.. 2024. 6. 1. 적합도 검정, 독립성 검정 (Goodness of Fit Test, Independence Test) Goodness of Fit Test and Independence Test with Contingency Tables1. One-way Classifications (모형 적합도 검정)$k$개의 범주에 대하여 각 범주의 확률을 $p_i$ ($i=1,2,\dots, k$)라 하자.$k$개의 범주의 관측값은 각각 $x_1, x_2, \dots, x_k$이고 $x_1 + \dots + x_k=n$이다.이를 observed cell frequencies라 한다. null hypothesis는\[ H_0: p_i = p_i^* \quad (1 \le i \le k) \]이고 검정통계량은 다음 중 하나를 이용한다. (대부분 카이제곱 이용)\[ \chi^2 = \sum_{i=1}^{k} \frac{(x_i - e_.. 2024. 5. 26. 표본분산은 왜 n-1로 나눌까? (불편추정량, 자유도) 표본분산은 왜 n이 아니라 n-1로 나눌까?Notation$\mu$: 모평균 (모집단의 평균, 우리는 알 수 없다.)$\sigma^2$: 모분산 (모집단의 분산, 우리는 알 수 없다.)$X_1, X_2, \dots, X_n$: 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단(정규분포일 필요는 없다.)에서 i.i.d(독립항등분포) 샘플링한 확률변수.$\overline{X}$: 표본평균 (sample mean)$E(X)$: 기댓값. $E[X] = \mu$$Var(\cdot)$: 분산, $Var(X) = E[(X - E[X])^2] = E[X^2] - E[X]^2$ 표본평균의 통계량표본평균의 평균, $E[\overline{X}]$$\overline{X} = \frac{1}{n} \sum_{i=1}^{.. 2024. 5. 21. 모비율 검정 (Inferences on Population Proportion, Two Population Proportions) Discrete Data Analysis: Population Proportion1.1 모비율의 추정 (Inferences on a Population Proportion)parameter $p$가 모집단의 비율(모비율)이라 하자. 모집단에서 $n$개의 관찰에 대한 무작위 표본을 얻은 경우, 각 관찰은 성공확률이 $p$인 베르누이 분포를 따른다. 따라서 성공횟수 $X$는 파라미터가 $n$과 $p$인 이항분포를 따른다. ($X \sim Bin(n, p)$) 전체 모집단에서 $n$개의 샘플을 얻고, 우리가 보고 싶은 특성이 있는/없는 두 범주(category)로 분리할 수 있다.각 샘플이 특성이 있는 확률이 $p$라 하고 전체 샘플 수를 $x$라 하자.sample proportion의 point estim.. 2024. 5. 18. 이전 1 2 3 4 ··· 10 다음 728x90 반응형