본문 바로가기
728x90
반응형

스터디228

모비율 검정 (Inferences on Population Proportion, Two Population Proportions) Discrete Data Analysis: Population Proportion1.1 모비율의 추정 (Inferences on a Population Proportion)parameter $p$가 모집단의 비율(모비율)이라 하자. 모집단에서 $n$개의 관찰에 대한 무작위 표본을 얻은 경우, 각 관찰은 성공확률이 $p$인 베르누이 분포를 따른다.  따라서 성공횟수 $X$는 파라미터가 $n$과 $p$인 이항분포를 따른다. ($X \sim Bin(n, p)$) 전체 모집단에서 $n$개의 샘플을 얻고, 우리가 보고 싶은 특성이 있는/없는 두 범주(category)로 분리할 수 있다.각 샘플이 특성이 있는 확률이 $p$라 하고 전체 샘플 수를 $x$라 하자.sample proportion의 point estim.. 2024. 5. 18.
모평균 추정-모집단이 두개인 경우 (Comparing Two Population Means, Paired Samples, Independent Samples) Comparing Two Population MeansTwo Sample Problems이번 포스트에서는 두 모집단의 차이를 살펴볼 것이다.영어로는 two-sample problem이라 한다. 두 모집단 A, B가 있다고 하자.$x_1, \dots, x_n$은 A에서 얻은 데이터(observed data)이고, $y_1, \dots, y_m$은 B에서 얻은 데이터라 하자.수학적으로 $x_i$는 $F_A(x)$에서, $y_i$는 $F_B(x)$에서 추출된 샘플이라 할 수 있다.  두 모집단의 차이를 말할 때, $F_A(x), F_B(x)$의 차이를 구하면 되지 않느냐고 할 수 있다.그러나 $H_0: F_A=F_B \text{ vs. } H_A: F_A \neq F_B$ 이렇게는 하면 답이 없다.두 분포가 .. 2024. 5. 16.
모평균 가설 검정 (Hypothesis Tests of a Population Mean, t-test, z-test) Hypothesis testing, Null hypothesis, Alternative hypothesis, p-value통계적으로 다양한 가설을 세울 수 있다. (평균, 분산, model fitness 등)이 글에서는 모평균에 대한 가설과 그 검정방법을 소개한다.HypothesisNull Hypothesis ($H_0$, 귀무가설)초기에 설정하는 가설.효과가 없거나 차이가 없다는 주장을 담는다.Alternative Hypothesis ($H_A$, 대립가설)귀무가설과 대조(opposite)되는 가설.귀무가설이 틀렸다는 것을 보여주기 위해 사용된다.보통 대립가설이 "주장"이 되는 경우가 많다.모평균($\mu$)과 관련된 가설은 다음과 같이 세팅된다.two-sided set of hypothesis: $H.. 2024. 5. 9.
[Bayesian] Bayesian Linear Regression (베이지안 선형 회귀) Bayesian Linear RegressionPriorlikelihood가 가우시안이므로 prior 역시 가우시안이다. \[ p(\theta)=\mathcal{N}(\theta|m, S) \]$m$은 평균, $S$는 공분산행렬이다. Posterior$\theta$의 posterior distribution 역시 가우시안임이 알려져있다.\begin{align} p(\theta | \mathcal{D}) &= \mathcal{N}(\theta|m_{\mathcal{D}}, S_{\mathcal{D}}) \\ S_{\mathcal{D}}^{-1} &= S^{-1} + \Phi^\top\Phi / \sigma^2 \\ m_{\mathcal{D}} &= S_{\mathcal{D}}(S^{-1}m + \Phi^\.. 2024. 5. 8.
모평균 추정과 신뢰구간 (Inference on a population mean, confidence Interval, t-interval, z-interval) t-intervals vs. z-intervals모평균(population mean)을 추정할 때 모평균과 모분산을 모두 모를때(both unknown) t-procedure를 이용한다.정리하자면 다음과 같은 상황에서 모평균을 추정할 때 t-procedure를 사용한다.population이 normal distribution임이 알려져 있다. (매우 강력한 가정!)$\mu$와 $\sigma^2$가 알려져 있지 않다. (both unknown)sample size $n$은 사실 상관이 없다.※ CLT에 의해 $n \ge 30$인 경우에도 사용한다고 하지만, 이 경우 t-procedure보다 z-procedure를 사용하는 것이 옳다. ※ $n \ge 30$인 경우에 $t$-procedure를 사용해도 문제.. 2024. 5. 4.
Method of Moments vs Maximum Likelihood Estimate (MOM, MLE, 적률추정법, 최대우도추정법) Method of Moments & Maximum Likelihood Estimate간단하게 적률추정법(MOM)과 최대우도추정법(MLE)를 설명하고 비교해보자.Notation공통되는 notation 정리$\theta$: parameter, 모수. 일반적으로 알 수 없다(unknown). $\mu, \ \sigma^2$은 모평균, 모분산으로 population이기 때문에 일반적으로 알 수 없다.$\hat{\theta}$: estimator, 모수 추정량. $X$: 확률변수$x$, $x_1, x_2, \dots, x_n$: data, observation, 실제 관찰(관측)된 값$\bar{X}$: 확률변수로의 표본평균$\bar{x}$: 실제 관측 값의 표분평균$S^2$: 확률변수로의 표본분산$s^2$: 실제.. 2024. 4. 30.
728x90
반응형