Data Integration
다양한 데이터 소스들을 data warehouse에 종합하는 작업을 말한다.
이 때 다양한 이슈들이 발생할 수 있다.
예를 들어, schema integration, entity resolution, redundancy, inconsistency
- Schema integration
- heterogeneous shema들을 통합해야 한다.
- 이때 같은 의미를 갖는데, 스키마에 따라 다르게 정의될 수 있는데, 이를 통합한다.
- A.cus_id는 B.custumer_id와 동일하게 고객식별번호이다.
- Entity resolution
- 다양한 source에 기록된 record들을 식별해야한다.
- 특히 real-world entity에 동일하게 대응되는 고유명사(사람 이름 등)에서 많이 발생한다.
- Redundancy
- Inconsistency
- attribute마다 true value를 찾아야 한다.
Handling Redundancy in Data Integration
여러 데이터베이스를 통합하다보면 중복되는 데이터가 발생한다. 이 때 다음 특성을 고려하여 중복을 제거할 수 있다.
Object identification
같은 객체나 attribute는 다른 데이터베이스에 다른 이름(컬럼)으로 정의될 수 있다.
Derivable data
어떤 attribute는 다른 값에 의해 유도되어 구할 수 있다.
예를 들어, 연봉은 세금에 의해 역추적 하여 값을 구할 수 있다.
데이터 중복 탐지 방법
- $\chi^2$ test
- Pearson's product moment coefficient
- Covariance
- etc.
Pearson Product-Moment Coefficient
두 변수 $X, Y$에 대하여 상관계수(선형 관계)를 측정한다.
값은 $[-1, 1]$에 존재한다.
과학계에서 선형 관계가 얼마나 강한지 측정하기 위해 사용된다.
일반적으로, 두 변수의 공분산을 두 변수의 표준편차의 곱으로 나눈 값으로 정의한다.
population에서는
\[ \rho = \cfrac{\text{cov}(X, Y)}{\sigma_X \sigma_Y} = \cfrac{E[(X-\mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y} \]
sample에서는
\[ r = \cfrac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2} \sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \]
'스터디 > 데이터사이언스' 카테고리의 다른 글
[Data Science] Data Preprocessing (5) - Data Transformation (0) | 2023.03.28 |
---|---|
[Data Science] Data Preprocessing (4) - Data Reduction (0) | 2023.03.28 |
[Data Science] Data Preprocessing (2) - Data Cleaning (0) | 2023.03.28 |
[Data Science] Measuring Data Similarity and Dissimilarity (0) | 2023.03.22 |
[Data Science] Data Preprocessing (1) - Overview (0) | 2023.03.21 |