본문 바로가기
728x90
반응형

스터디230

적합도 검정, 독립성 검정 (Goodness of Fit Test, Independence Test) Goodness of Fit Test and Independence Test with Contingency Tables1. One-way Classifications (모형 적합도 검정)$k$개의 범주에 대하여 각 범주의 확률을 $p_i$ ($i=1,2,\dots, k$)라 하자.$k$개의 범주의 관측값은 각각 $x_1, x_2, \dots, x_k$이고 $x_1 + \dots + x_k=n$이다.이를 observed cell frequencies라 한다. null hypothesis는\[ H_0: p_i = p_i^* \quad (1 \le i \le k) \]이고 검정통계량은 다음 중 하나를 이용한다. (대부분 카이제곱 이용)\[ \chi^2 = \sum_{i=1}^{k} \frac{(x_i - e_.. 2024. 5. 26.
표본분산은 왜 n-1로 나눌까? (불편추정량, 자유도) 표본분산은 왜 n이 아니라 n-1로 나눌까?Notation$\mu$: 모평균 (모집단의 평균, 우리는 알 수 없다.)$\sigma^2$: 모분산 (모집단의 분산, 우리는 알 수 없다.)$X_1, X_2, \dots, X_n$: 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단(정규분포일 필요는 없다.)에서 i.i.d(독립항등분포) 샘플링한 확률변수.$\overline{X}$: 표본평균 (sample mean)$E(X)$: 기댓값. $E[X] = \mu$$Var(\cdot)$: 분산, $Var(X) = E[(X - E[X])^2] = E[X^2] - E[X]^2$ 표본평균의 통계량표본평균의 평균, $E[\overline{X}]$$\overline{X} = \frac{1}{n} \sum_{i=1}^{.. 2024. 5. 21.
모비율 검정 (Inferences on Population Proportion, Two Population Proportions) Discrete Data Analysis: Population Proportion1.1 모비율의 추정 (Inferences on a Population Proportion)parameter $p$가 모집단의 비율(모비율)이라 하자. 모집단에서 $n$개의 관찰에 대한 무작위 표본을 얻은 경우, 각 관찰은 성공확률이 $p$인 베르누이 분포를 따른다.  따라서 성공횟수 $X$는 파라미터가 $n$과 $p$인 이항분포를 따른다. ($X \sim Bin(n, p)$) 전체 모집단에서 $n$개의 샘플을 얻고, 우리가 보고 싶은 특성이 있는/없는 두 범주(category)로 분리할 수 있다.각 샘플이 특성이 있는 확률이 $p$라 하고 전체 샘플 수를 $x$라 하자.sample proportion의 point estim.. 2024. 5. 18.
모평균 추정-모집단이 두개인 경우 (Comparing Two Population Means, Paired Samples, Independent Samples) Comparing Two Population MeansTwo Sample Problems이번 포스트에서는 두 모집단의 차이를 살펴볼 것이다.영어로는 two-sample problem이라 한다. 두 모집단 A, B가 있다고 하자.$x_1, \dots, x_n$은 A에서 얻은 데이터(observed data)이고, $y_1, \dots, y_m$은 B에서 얻은 데이터라 하자.수학적으로 $x_i$는 $F_A(x)$에서, $y_i$는 $F_B(x)$에서 추출된 샘플이라 할 수 있다.  두 모집단의 차이를 말할 때, $F_A(x), F_B(x)$의 차이를 구하면 되지 않느냐고 할 수 있다.그러나 $H_0: F_A=F_B \text{ vs. } H_A: F_A \neq F_B$ 이렇게는 하면 답이 없다.두 분포가 .. 2024. 5. 16.
모평균 가설 검정 (Hypothesis Tests of a Population Mean, t-test, z-test) Hypothesis testing, Null hypothesis, Alternative hypothesis, p-value통계적으로 다양한 가설을 세울 수 있다. (평균, 분산, model fitness 등)이 글에서는 모평균에 대한 가설과 그 검정방법을 소개한다.HypothesisNull Hypothesis ($H_0$, 귀무가설)초기에 설정하는 가설.효과가 없거나 차이가 없다는 주장을 담는다.Alternative Hypothesis ($H_A$, 대립가설)귀무가설과 대조(opposite)되는 가설.귀무가설이 틀렸다는 것을 보여주기 위해 사용된다.보통 대립가설이 "주장"이 되는 경우가 많다.모평균($\mu$)과 관련된 가설은 다음과 같이 세팅된다.two-sided set of hypothesis: $H.. 2024. 5. 9.
[Bayesian] Bayesian Linear Regression (베이지안 선형 회귀) Bayesian Linear RegressionPriorlikelihood가 가우시안이므로 prior 역시 가우시안이다. \[ p(\theta)=\mathcal{N}(\theta|m, S) \]$m$은 평균, $S$는 공분산행렬이다. Posterior$\theta$의 posterior distribution 역시 가우시안임이 알려져있다.\begin{align} p(\theta | \mathcal{D}) &= \mathcal{N}(\theta|m_{\mathcal{D}}, S_{\mathcal{D}}) \\ S_{\mathcal{D}}^{-1} &= S^{-1} + \Phi^\top\Phi / \sigma^2 \\ m_{\mathcal{D}} &= S_{\mathcal{D}}(S^{-1}m + \Phi^\.. 2024. 5. 8.
728x90
반응형