Data Transformation
attribute의 모든 값을 새로운 값으로 매핑하는 함수를 의미한다.
- Normalization
- min-max normalization
- z-score normalization
- Discretization: concept of hierarchy climbing
- etc
Normalization
Min-max normalization: $[a, b]$로 변환
$M = \max(A), \ m = \min(A)$라 하면
\[ v' = \cfrac{v - m}{M- m}(b- a) + a\]
Z-score normalization
\[ v' = \cfrac{v - \mu_A}{\sigma_A} \]
Example
다음과 같이 5개의 데이터에 대하여, 각 물음의 방법으로 normalize하여라.
\[ 200, 300, 400, 600, 1000 \]
(a) min-max normalization, setting min=0, max=1
\[ v' = \cfrac{v - 200}{1000-200}(1-0) + 0 = \cfrac{v-200}{800} \]
따라서 정규화한 데이터는 $[0, 0.125, 0.25, 0.5, 1]$이다.
(b) z-score normalization
$\mu=500, \sigma=282.8$이므로 $[-1.06, -0.707, -0.354, 0.354, 1.77]$ 이다.
(c) z-score normalization, using mean absolute deviation instead of standard deviation
$s_A = \cfrac{1}{5}(|200-500| + \cdots + |1000-500|)=240$이므로 $[-1.25, -0.833, -0.417, 0.417, 2.08]$이다.
Data Discretization
Equal-width discretization (Unsupervised)
bining을 할 때, 각 width가 같도록 한다.
Equal-frequency discretization (Unsupervised)
binning을 할 때, 각 bin에 담긴 frequency가 같도록 한다.
Entropy-based discretization (Supervised)
Example
12개의 데이터가 다음과 같을 때, three-bin을 사용할 때의 각 파티션을 구하여라.
\[5, 10,11,13,15,35,50,55,72,92,204,215 \]
(a) equal-frequency partitioning
$12/3=4$이므로 각 partition마다 $4$개의 데이터를 포함한다.
\[ [5, 10, 11, 13], [15, 35, 50, 55], [72, 92, 204, 215] \]
(b) equal-width partitioning
각 partition의 길이는$(215-5)/3=70$이므로 $[5~75], [75~145], [145~215]$의 길이로 분할한다.
\[ [5, 10,11,13,15,35,50,55,72] ,[92],[204,215] \]
Concept Hierarchy Generation for Nomial Data
- Specification of a partial/total ordering of attributes explicitly at the schema level by users or experts
- street < city < state < country
- Specification of a hierarchy for a set of values by explicit data grouping
- {Urbana, Champaign, Chicago} < Illinois
- Specification of only a partial set of attributes
- only street < city, not others
- Automatic generation of hierarchies by the analysis of the number of distict values
- {street, city, state, country}
'스터디 > 데이터사이언스' 카테고리의 다른 글
[Data Science] Association Rule Mining (2) - Apriori principle (0) | 2023.04.01 |
---|---|
[Data Science] Association Rule Mining (1) - Introduction (0) | 2023.04.01 |
[Data Science] Data Preprocessing (4) - Data Reduction (0) | 2023.03.28 |
[Data Science] Data Preprocessing (3) - Data Integration (0) | 2023.03.28 |
[Data Science] Data Preprocessing (2) - Data Cleaning (0) | 2023.03.28 |