본문 바로가기
728x90
반응형

전체 글265

연속확률변수의 기댓값, Expectation of Continuous Case (Uniform, Exponential, Gamma, Normal) 연속확률변수의 기댓값도 이산확률변수와 거의 같다.Expected value, 기댓값연속확률변수 $X$에 대히여 pdf가 $f_X$일 때, $X$의 기댓값은 다음과 같다,\[ E(X) = \int_{-\infty}^{\infty}xf_X(x) dx \](1) 균등분포의 기댓값$X \sim U[a, b]$의 pdf는 $\frac{1}{b-a}$이므로 기댓값은\[ E(X) = \int_a^b \cfrac{x}{b-a} dx = \cfrac{a+b}{2} \] (2) 지수분포의 기댓값$X \sim Exp(\lambda)$의 pdf는 $\lambda e^{-\lambda x}$이므로 기댓값은 (부분적분을 이용하여)\[ E(X) = \int_0^{\infty}x \lambda e^{-\lambda x} = \lef.. 2023. 3. 30.
Order Statistics, 순서통계량 Order Statistics, 순서 통계량$(X_1, \dots, X_n)$이 i.i.d.한 분포에서 추출한 확률변수하고 하자. 많은 경우에, 우리는 확률변수의 값이 아니라 확률변수의 순서에 관심이 있을 때가 있다. 이런 경우 아래와같이 $1$번째부터 $n$번째 확률변수를 나열하면 다음과 같다.\[ X_{(1)}, \dots X_{(n)} \]$X_{(i)}$를 $i$번째 작은 확률변수이고, 당연히 $X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)}$ 이다. 특별히, 표본 중앙값(sample median, median과는 다르다)은 $X_{(\left[ \frac{n}{2} \right])}$ 이다. Note: 중앙값(median, $m$)의 정의는 cdf $F$에 대하여, .. 2023. 3. 29.
이산확률변수의 기댓값, Expectation of Discrete Case (Bernoulli, Binomial, Geometric, Poisson) 앞서 Ch2에서 확률변수와 확률분포를 배웠다. 이제 유의미한 통계량인 기댓값에 대하여 Ch3를 할애했다.그리고 기댓값을 시작으로 분산, 공분산, 상관계수를 학습하고 적률생성함수(moment generating function, mgf)로 $k$차 적률($E(X^k)$)까지 유도해본다. Expected value, 기댓값이산확률변수 $X$에 대하여, 기댓값을 $E(X)$ 또는 $\mu_X$로 표기한다. \[ E(X) = \sum_{x \in \mathbb{R}}xP(X=x) = \sum_{x \in \mathbb{R}}xp_X(x) \]$p_i = P(X=x_i)$로 표기하면 다음과 같이 정의할 수 있다.\[ E(X) = \sum_{i}x_i p_i \]Note: 기댓값은 음수가 될 수 있다. Degene.. 2023. 3. 29.
[Data Science] Data Preprocessing (5) - Data Transformation Data Transformationattribute의 모든 값을 새로운 값으로 매핑하는 함수를 의미한다.Normalizationmin-max normalizationz-score normalizationDiscretization: concept of hierarchy climbingetc NormalizationMin-max normalization: $[a, b]$로 변환$M = \max(A), \ m = \min(A)$라 하면\[ v' = \cfrac{v - m}{M- m}(b- a) + a\] Z-score normalization\[ v' = \cfrac{v - \mu_A}{\sigma_A} \] Example다음과 같이 5개의 데이터에 대하여, 각 물음의 방법으로 normalize하여라.\[ 2.. 2023. 3. 28.
[Data Science] Data Preprocessing (4) - Data Reduction StrategyDimensionality reductionwavelet transformPincipal components analysis (PCA)Feature subset selection, feature creationMunerosity reduction (data reduction)regressionhistograms, clustering, samplingdata cube aggregationData compresison Curse of dimensionality차원이 증가하면 데이터는 점점 sparse하게 공간을 차지하게 된다.sparse해지기 때문에 앞서 배운 distance가 작아져 데이터들간의 distance가 의미가 거의 없어지게 된다.차원이 $d$인 hypercube(초입방체) 내부에 .. 2023. 3. 28.
[Data Science] Data Preprocessing (3) - Data Integration Data Integration다양한 데이터 소스들을 data warehouse에 종합하는 작업을 말한다.이 때 다양한 이슈들이 발생할 수 있다.예를 들어, schema integration, entity resolution, redundancy, inconsistency  Schema integrationheterogeneous shema들을 통합해야 한다.이때 같은 의미를 갖는데, 스키마에 따라 다르게 정의될 수 있는데, 이를 통합한다.A.cus_id는 B.custumer_id와 동일하게 고객식별번호이다.Entity resolution다양한 source에 기록된 record들을 식별해야한다. 특히 real-world entity에 동일하게 대응되는 고유명사(사람 이름 등)에서 많이 발생한다.Redund.. 2023. 3. 28.
728x90
반응형