본문 바로가기
스터디/데이터사이언스

[Data Science] Data Preprocessing (3) - Data Integration

by 궁금한 준이 2023. 3. 28.
728x90
반응형

 

Data Integration

다양한 데이터 소스들을 data warehouse에 종합하는 작업을 말한다.

이 때 다양한 이슈들이 발생할 수 있다.

예를 들어, schema integration, entity resolution, redundancy, inconsistency 

 

  1. Schema integration
    1. heterogeneous shema들을 통합해야 한다.
    2. 이때 같은 의미를 갖는데, 스키마에 따라 다르게 정의될 수 있는데, 이를 통합한다.
    3. A.cus_id는 B.custumer_id와 동일하게 고객식별번호이다.
  2. Entity resolution
    1. 다양한 source에 기록된 record들을 식별해야한다. 
    2. 특히 real-world entity에 동일하게 대응되는 고유명사(사람 이름 등)에서 많이 발생한다.
  3. Redundancy
  4. Inconsistency
    1. attribute마다 true value를 찾아야 한다.

 

Handling Redundancy in Data Integration

여러 데이터베이스를 통합하다보면 중복되는 데이터가 발생한다. 이 때 다음 특성을 고려하여 중복을 제거할 수 있다.

 

Object identification

같은 객체나 attribute는 다른 데이터베이스에 다른 이름(컬럼)으로 정의될 수 있다. 

 

Derivable data

어떤 attribute는 다른 값에 의해 유도되어 구할 수 있다.

예를 들어, 연봉은 세금에 의해 역추적 하여 값을 구할 수 있다.

 

데이터 중복 탐지 방법

  • $\chi^2$ test
  • Pearson's product moment coefficient
  • Covariance
  • etc.

 

Pearson Product-Moment Coefficient

두 변수 $X, Y$에 대하여 상관계수(선형 관계)를 측정한다.

값은 $[-1, 1]$에 존재한다.

과학계에서 선형 관계가 얼마나 강한지 측정하기 위해 사용된다.

 

일반적으로, 두 변수의 공분산을 두 변수의 표준편차의 곱으로 나눈 값으로 정의한다.

population에서는

\[ \rho = \cfrac{\text{cov}(X, Y)}{\sigma_X \sigma_Y} = \cfrac{E[(X-\mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y} \]

sample에서는

\[ r = \cfrac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2} \sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \]

 

 

728x90
반응형