본문 바로가기
728x90
반응형

분류 전체보기266

분산, Variance 확률변수 $X$의 기댓값 $E(X)$를 구하는 법을 알았다.이제, $X$가 $E(X)$로부터 얼마나 멀리 떨어져 있는지에 대한 정보인 분산에 대해 알아보자. Variance, 분산\[ Var(X) = \sigma_X^2 = E\left[ (X - E(X))^2 \right]  = E(X^2)-\mu^2 \]Standard Deviation, 표준편차\[ Sd(X) = \sqrt{Var(X)} = \sigma_X \]Note: 경우에 따라 $Var(X)$대신 $V(X)$를, $E(X)$대신 $\mu_X$로 표기할 수 있다.Note: 분산의 단위는 $X$의 단위의 제곱이다.Note: 표준편차의 단위는 $X$의 단위와 같다. (1) 이항분포의 분산$E(X)=n\theta$임을 알고 있으므로, $E(X^2)$을.. 2023. 3. 30.
연속확률변수의 기댓값, Expectation of Continuous Case (Uniform, Exponential, Gamma, Normal) 연속확률변수의 기댓값도 이산확률변수와 거의 같다.Expected value, 기댓값연속확률변수 $X$에 대히여 pdf가 $f_X$일 때, $X$의 기댓값은 다음과 같다,\[ E(X) = \int_{-\infty}^{\infty}xf_X(x) dx \](1) 균등분포의 기댓값$X \sim U[a, b]$의 pdf는 $\frac{1}{b-a}$이므로 기댓값은\[ E(X) = \int_a^b \cfrac{x}{b-a} dx = \cfrac{a+b}{2} \] (2) 지수분포의 기댓값$X \sim Exp(\lambda)$의 pdf는 $\lambda e^{-\lambda x}$이므로 기댓값은 (부분적분을 이용하여)\[ E(X) = \int_0^{\infty}x \lambda e^{-\lambda x} = \lef.. 2023. 3. 30.
Order Statistics, 순서통계량 Order Statistics, 순서 통계량$(X_1, \dots, X_n)$이 i.i.d.한 분포에서 추출한 확률변수하고 하자. 많은 경우에, 우리는 확률변수의 값이 아니라 확률변수의 순서에 관심이 있을 때가 있다. 이런 경우 아래와같이 $1$번째부터 $n$번째 확률변수를 나열하면 다음과 같다.\[ X_{(1)}, \dots X_{(n)} \]$X_{(i)}$를 $i$번째 작은 확률변수이고, 당연히 $X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)}$ 이다. 특별히, 표본 중앙값(sample median, median과는 다르다)은 $X_{(\left[ \frac{n}{2} \right])}$ 이다. Note: 중앙값(median, $m$)의 정의는 cdf $F$에 대하여, .. 2023. 3. 29.
이산확률변수의 기댓값, Expectation of Discrete Case (Bernoulli, Binomial, Geometric, Poisson) 앞서 Ch2에서 확률변수와 확률분포를 배웠다. 이제 유의미한 통계량인 기댓값에 대하여 Ch3를 할애했다.그리고 기댓값을 시작으로 분산, 공분산, 상관계수를 학습하고 적률생성함수(moment generating function, mgf)로 $k$차 적률($E(X^k)$)까지 유도해본다. Expected value, 기댓값이산확률변수 $X$에 대하여, 기댓값을 $E(X)$ 또는 $\mu_X$로 표기한다. \[ E(X) = \sum_{x \in \mathbb{R}}xP(X=x) = \sum_{x \in \mathbb{R}}xp_X(x) \]$p_i = P(X=x_i)$로 표기하면 다음과 같이 정의할 수 있다.\[ E(X) = \sum_{i}x_i p_i \]Note: 기댓값은 음수가 될 수 있다. Degene.. 2023. 3. 29.
[Data Science] Data Preprocessing (5) - Data Transformation Data Transformationattribute의 모든 값을 새로운 값으로 매핑하는 함수를 의미한다.Normalizationmin-max normalizationz-score normalizationDiscretization: concept of hierarchy climbingetc NormalizationMin-max normalization: $[a, b]$로 변환$M = \max(A), \ m = \min(A)$라 하면\[ v' = \cfrac{v - m}{M- m}(b- a) + a\] Z-score normalization\[ v' = \cfrac{v - \mu_A}{\sigma_A} \] Example다음과 같이 5개의 데이터에 대하여, 각 물음의 방법으로 normalize하여라.\[ 2.. 2023. 3. 28.
[Data Science] Data Preprocessing (4) - Data Reduction StrategyDimensionality reductionwavelet transformPincipal components analysis (PCA)Feature subset selection, feature creationMunerosity reduction (data reduction)regressionhistograms, clustering, samplingdata cube aggregationData compresison Curse of dimensionality차원이 증가하면 데이터는 점점 sparse하게 공간을 차지하게 된다.sparse해지기 때문에 앞서 배운 distance가 작아져 데이터들간의 distance가 의미가 거의 없어지게 된다.차원이 $d$인 hypercube(초입방체) 내부에 .. 2023. 3. 28.
728x90
반응형