본문 바로가기
728x90
반응형

스터디/확률과 통계56

모평균 가설 검정 (Hypothesis Tests of a Population Mean, t-test, z-test) Hypothesis testing, Null hypothesis, Alternative hypothesis, p-value통계적으로 다양한 가설을 세울 수 있다. (평균, 분산, model fitness 등)이 글에서는 모평균에 대한 가설과 그 검정방법을 소개한다.HypothesisNull Hypothesis ($H_0$, 귀무가설)초기에 설정하는 가설.효과가 없거나 차이가 없다는 주장을 담는다.Alternative Hypothesis ($H_A$, 대립가설)귀무가설과 대조(opposite)되는 가설.귀무가설이 틀렸다는 것을 보여주기 위해 사용된다.보통 대립가설이 "주장"이 되는 경우가 많다.모평균($\mu$)과 관련된 가설은 다음과 같이 세팅된다.two-sided set of hypothesis: $H.. 2024. 5. 9.
모평균 추정과 신뢰구간 (Inference on a population mean, confidence Interval, t-interval, z-interval) t-intervals vs. z-intervals모평균(population mean)을 추정할 때 모평균과 모분산을 모두 모를때(both unknown) t-procedure를 이용한다.정리하자면 다음과 같은 상황에서 모평균을 추정할 때 t-procedure를 사용한다.population이 normal distribution임이 알려져 있다. (매우 강력한 가정!)$\mu$와 $\sigma^2$가 알려져 있지 않다. (both unknown)sample size $n$은 사실 상관이 없다.※ CLT에 의해 $n \ge 30$인 경우에도 사용한다고 하지만, 이 경우 t-procedure보다 z-procedure를 사용하는 것이 옳다. ※ $n \ge 30$인 경우에 $t$-procedure를 사용해도 문제.. 2024. 5. 4.
Method of Moments vs Maximum Likelihood Estimate (MOM, MLE, 적률추정법, 최대우도추정법) Method of Moments & Maximum Likelihood Estimate간단하게 적률추정법(MOM)과 최대우도추정법(MLE)를 설명하고 비교해보자.Notation공통되는 notation 정리$\theta$: parameter, 모수. 일반적으로 알 수 없다(unknown). $\mu, \ \sigma^2$은 모평균, 모분산으로 population이기 때문에 일반적으로 알 수 없다.$\hat{\theta}$: estimator, 모수 추정량. $X$: 확률변수$x$, $x_1, x_2, \dots, x_n$: data, observation, 실제 관찰(관측)된 값$\bar{X}$: 확률변수로의 표본평균$\bar{x}$: 실제 관측 값의 표분평균$S^2$: 확률변수로의 표본분산$s^2$: 실제.. 2024. 4. 30.
[Sampling] Markov Chain Monte Carlo (MCMC) (5) - Diagnosis MCMC diagnosis: convergence, correlations, CLT, effective sample size (ESS) MCMC: Pros and Cons(+) high dimensional data에서 잘 동작한다.(+) Metropolis-Hastings 알고리즘과 같이 general-purpose sampler로 확장이 쉽다(+) 구현이 쉬운 편이다(-) sequential한 성질 때문에 대규보 데이터로 확장이 어렵다 (not really scalable)(-) 어떤 chain이 target distribution에 도달하는지 명확하지 않다.(-) 수렴 지표가 명확하지 않다.그렇다면 무엇이 더 좋은 MCMC 알고리즘으로 만들까?좋은 MCMC는, high-density 영역에 오래 머.. 2024. 3. 19.
Multivariate Gaussian Distribution (다변량 정규분포, 다변량 가우시안 분포) Multivariate Gaussian Distribution and its joint, marginal, conditional, MLEMultivariate Gaussian Distribution다변량 가우시안 분포는 다음과 같은 확률밀도함수(pdf)를 갖는다. \[ p(x; \mu, \Sigma) = \cfrac{1}{(2 \pi)^{n/2} |\Sigma|^{1/2}} \exp \left[ -\cfrac{1}{2} (x-\mu)^T \Sigma^{-1} (x-\mu) \right] \]이때 $n$은 데이터의 차원, $x \in \mathbb{R}^{n}$, $\mu \in \mathbb{R}^{n}$, $\Sigma \in \mathbb{R}^{n \times n}$ 이다.$x$는 random ve.. 2024. 1. 23.
[Sampling] Markov Chain Monte Carlo (MCMC) (4) - Slice sampling Slice Samplingproposal distribution 없이 $p(x)$ 또는 $\tilde{p}(x)$로부터 직접 샘플링하는 방법이다.일반적으로 univariate multi-modal distribution에 유용하다.(논문저자 Radford M. Neal에 따르면 multivariate의 경우에도 slice sampling을 변형하여 샘플링 할 수 있다. 여기서는 생략) Algorithmslice variable $u$를 도입한다. (책에 따라 auxiliary variable, additional variable이라고도 한다.)\[ p(x,u) = \cfrac{\mathbf {1}_{ \{ 0 \le u \le \tilde{p}(x) \} } }{Z}, \ \int_0^{\tilde{p}.. 2023. 10. 15.
728x90
반응형