본문 바로가기
스터디/데이터사이언스

[Data Science] Data Preprocessing (5) - Data Transformation

by 궁금한 준이 2023. 3. 28.
728x90
반응형

 

 

 

 

Data Transformation

attribute의 모든 값을 새로운 값으로 매핑하는 함수를 의미한다.

  • Normalization
    • min-max normalization
    • z-score normalization
  • Discretization: concept of hierarchy climbing
  • etc

 

Normalization

Min-max normalization: $[a, b]$로 변환

$M = \max(A), \ m = \min(A)$라 하면

\[ v' = \cfrac{v - m}{M- m}(b- a) + a\]

 

Z-score normalization

\[ v' = \cfrac{v - \mu_A}{\sigma_A} \]

 

Example

다음과 같이 5개의 데이터에 대하여, 각 물음의 방법으로 normalize하여라.

\[ 200, 300, 400, 600, 1000 \]

(a) min-max normalization, setting min=0, max=1

\[ v' = \cfrac{v - 200}{1000-200}(1-0) + 0 = \cfrac{v-200}{800} \]

따라서 정규화한 데이터는 $[0, 0.125, 0.25, 0.5, 1]$이다.

(b) z-score normalization

$\mu=500, \sigma=282.8$이므로 $[-1.06, -0.707, -0.354, 0.354, 1.77]$ 이다.

(c) z-score normalization, using mean absolute deviation instead of standard deviation

$s_A = \cfrac{1}{5}(|200-500| + \cdots + |1000-500|)=240$이므로 $[-1.25, -0.833, -0.417, 0.417, 2.08]$이다.

 

Data Discretization

 

Equal-width discretization (Unsupervised)

bining을 할 때, 각 width가 같도록 한다.

 

Equal-frequency discretization (Unsupervised)

binning을 할 때, 각 bin에 담긴 frequency가 같도록 한다.

 

Entropy-based discretization (Supervised)

 

Example

12개의 데이터가 다음과 같을 때, three-bin을 사용할 때의 각 파티션을 구하여라.

\[5, 10,11,13,15,35,50,55,72,92,204,215 \]

 

(a) equal-frequency partitioning

$12/3=4$이므로 각 partition마다 $4$개의 데이터를 포함한다.

\[ [5, 10, 11, 13], [15, 35, 50, 55], [72, 92, 204, 215] \]

(b) equal-width partitioning

각 partition의 길이는$(215-5)/3=70$이므로 $[5~75], [75~145], [145~215]$의 길이로 분할한다.

\[ [5, 10,11,13,15,35,50,55,72] ,[92],[204,215] \]

 

Concept Hierarchy Generation for Nomial Data

  • Specification of a partial/total ordering of attributes explicitly at the schema level by users or experts
    • street < city < state < country
  • Specification of a hierarchy for a set of values by explicit data grouping
    • {Urbana, Champaign, Chicago} < Illinois
  • Specification of only a partial set of attributes
    • only street < city, not others
  • Automatic generation of hierarchies by the analysis of the number of distict values
    • {street, city, state, country}
728x90
반응형