본문 바로가기
728x90
반응형

data science42

[Data Science] Data Preprocessing (5) - Data Transformation Data Transformationattribute의 모든 값을 새로운 값으로 매핑하는 함수를 의미한다.Normalizationmin-max normalizationz-score normalizationDiscretization: concept of hierarchy climbingetc NormalizationMin-max normalization: $[a, b]$로 변환$M = \max(A), \ m = \min(A)$라 하면\[ v' = \cfrac{v - m}{M- m}(b- a) + a\] Z-score normalization\[ v' = \cfrac{v - \mu_A}{\sigma_A} \] Example다음과 같이 5개의 데이터에 대하여, 각 물음의 방법으로 normalize하여라.\[ 2.. 2023. 3. 28.
[Data Science] Data Preprocessing (4) - Data Reduction StrategyDimensionality reductionwavelet transformPincipal components analysis (PCA)Feature subset selection, feature creationMunerosity reduction (data reduction)regressionhistograms, clustering, samplingdata cube aggregationData compresison Curse of dimensionality차원이 증가하면 데이터는 점점 sparse하게 공간을 차지하게 된다.sparse해지기 때문에 앞서 배운 distance가 작아져 데이터들간의 distance가 의미가 거의 없어지게 된다.차원이 $d$인 hypercube(초입방체) 내부에 .. 2023. 3. 28.
[Data Science] Data Preprocessing (2) - Data Cleaning 실제 세상의 데이터는 매우 더럽다. (dirty) 아래 여러 이유가 있다.Incompletemissing value가 종종 존재한다.예를 들어, 분석가는 고객의 주소가 중요하다고 생각하여 데이터를 조회했지만, 처음 DB를 구축한 사람은 그것이 중요하지 않다고 생각할 수 있기 때문이다.Noisynoise, error, outlierssalary = -10 과 같이 음수가 될 수 없는 attribute에 음수가 저장될 수 있다.Inconsistent값 자체는 문제가 없지만, 다른 attribute와 비교했을 때 오류가 있는 경우age=40인데, birthday=03/01/2020 인경우, age와 birthday는 문제없지만 현재 2023년과 비교했을 때 40세는 명백한 오류다.과거에는 평점을 1, 2, 3.. 2023. 3. 28.
[Data Science] Measuring Data Similarity and Dissimilarity Data Matrix$n$개의 object와 $p$개의 attribute를 갖는 데이터가 있다고 하자. 우리는 이런 데이터를 $n \times p$ matrix로 표현할 수 있다. \[ \begin{bmatrix} x_{11} & \cdots & x_{1f} & \cdots & x_{1p} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ x_{i1} & \cdots & x_{if} & \cdots & x_{ip} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ x_{n1} & \cdots & x_{nf} & \cdots & x_{np} \\ \end{bmatrix} \]이 때 $1$번째 object의 데이터는 $x_1 = (x.. 2023. 3. 22.
[Data Science] Basic Statistical Description of Data Keywordsbox plot, histogram, quantile plot, quantile-quantile plot, q-q plot, scatter plot Box Plotnumerical data를 5개의 수로 정리하여 그래프로 시각화한 그래프이다. Five-Number Summaryminimum, Q1, median(=Q2), Q3, maximumbox의 양 끝은 Q1과 Q3이다. 따라서 IQR은 박스의 길이가 된다. (IQR = Q3 - Q1)median은 박스 안에 한 선(line)으로 표시된다.Whiskers: 박스의 양끝 밖으로 선이 뻗어 min/max까지 이어진다.Outliers: 특정 threshold를 벗어나는 점들을 outlier라고 하고, 따로 점으로 표기된다.일반적으로 outl.. 2023. 3. 14.
[Data Science] Attribute Types Attribute, 속성attribute는 어떤 객체(object)의 성질이나 특징이다. e.g. 사람의 눈 색깔, 온도, 계좌 잔금 등 Attribute TypesCategorical: qualitativeNominal: category(범주), state(상태), namesBinray: Nominal의 특별한 경우로, 2개의 state만 있는 형태. (0과 1,  True or False, etc.)Ordinal: 순서가 있는 값. 그러나 간격의 크기는 의미를 갖지 않는다. Numeric: quantitative. discrete와 continuous한 값을 가질 수 있다.Interval: 같은 단위의 크기를 갖는 양. 0은 arbitrary-zero로 존재한다.(true-zero는 존재하지 않는다... 2023. 3. 9.
728x90
반응형