[Data Science] Data Preprocessing (5)

728x90

Data Transformation

attribute의 모든 값을 새로운 값으로 매핑하는 함수를 의미한다.

Normalization
- min-max normalization
- z-score normalization
Discretization: concept of hierarchy climbing
etc

Normalization

Min-max normalization: $[a, b]$로 변환

$M = \max(A), \ m = \min(A)$라 하면

\[ v' = \cfrac{v - m}{M- m}(b- a) + a\]

Z-score normalization

\[ v' = \cfrac{v - \mu_A}{\sigma_A} \]

Example

다음과 같이 5개의 데이터에 대하여, 각 물음의 방법으로 normalize하여라.

\[ 200, 300, 400, 600, 1000 \]

(a) min-max normalization, setting min=0, max=1

\[ v' = \cfrac{v - 200}{1000-200}(1-0) + 0 = \cfrac{v-200}{800} \]

따라서 정규화한 데이터는 $[0, 0.125, 0.25, 0.5, 1]$이다.

(b) z-score normalization

$\mu=500, \sigma=282.8$이므로 $[-1.06, -0.707, -0.354, 0.354, 1.77]$ 이다.

$s_A = \cfrac{1}{5}(|200-500| + \cdots + |1000-500|)=240$이므로 $[-1.25, -0.833, -0.417, 0.417, 2.08]$이다.

Data Discretization

Equal-width discretization (Unsupervised)

bining을 할 때, 각 width가 같도록 한다.

Equal-frequency discretization (Unsupervised)

binning을 할 때, 각 bin에 담긴 frequency가 같도록 한다.

Entropy-based discretization (Supervised)

Example

12개의 데이터가 다음과 같을 때, three-bin을 사용할 때의 각 파티션을 구하여라.

\[5, 10,11,13,15,35,50,55,72,92,204,215 \]

(a) equal-frequency partitioning

$12/3=4$이므로 각 partition마다 $4$개의 데이터를 포함한다.

\[ [5, 10, 11, 13], [15, 35, 50, 55], [72, 92, 204, 215] \]

(b) equal-width partitioning

각 partition의 길이는$(215-5)/3=70$이므로 $[5~75], [75~145], [145~215]$의 길이로 분할한다.

\[ [5, 10,11,13,15,35,50,55,72] ,[92],[204,215] \]

Concept Hierarchy Generation for Nomial Data

Specification of a partial/total ordering of attributes explicitly at the schema level by users or experts
- street < city < state < country
Specification of a hierarchy for a set of values by explicit data grouping
- {Urbana, Champaign, Chicago} < Illinois
Specification of only a partial set of attributes
- only street < city, not others
Automatic generation of hierarchies by the analysis of the number of distict values
- {street, city, state, country}

728x90

'스터디 > 데이터사이언스' 카테고리의 다른 글

[Data Science] Association Rule Mining (2) - Apriori principle (0)	2023.04.01
[Data Science] Association Rule Mining (1) - Introduction (0)	2023.04.01
[Data Science] Data Preprocessing (4) - Data Reduction (0)	2023.03.28
[Data Science] Data Preprocessing (3) - Data Integration (0)	2023.03.28
[Data Science] Data Preprocessing (2) - Data Cleaning (0)	2023.03.28

궁금한게많은joon

[Data Science] Data Preprocessing (5) - Data Transformation

Data Transformation

Normalization

Data Discretization

Concept Hierarchy Generation for Nomial Data

'스터디 > 데이터사이언스' 카테고리의 다른 글

티스토리툴바

[Data Science] Data Preprocessing (5) - Data Transformation

Data Transformation

Normalization

Data Discretization

Concept Hierarchy Generation for Nomial Data

'스터디 > 데이터사이언스' 카테고리의 다른 글

관련글

티스토리툴바