728x90
반응형
왜 데이터 전처리를 해야하는가?
실제 데이터베이스에서 데이터를 추출하여 살펴보면 제대로 된 데이터가 없다는 것을 알 것이다. 데이터가 잘 있어야 머신러닝이든 딥러닝이든 할 것이다. 데이터가 좋지 않으면 제아무리 최신 SOTA, cutting-edge 모델이어도 소용없다. (GIGO, Garbage In, Garbage Out)
잘 모르겠다면 캐글, 데이콘에 올라온 아무 데이터를 다운받아서 살펴보자. 당장 기본적인 타이타닉 데이터에 Age, Cabin에는 비어있는 데이터가 많이 있다.
심지어 대회에 올라온 데이터는 굉장히 많이 정제된 데이터임에도 불구하고 제공된 데이터 그대로 활용할 수는 없을 것이다.
그래도 잘 모르겠다면, GPS로 길찾기를 해본 경험을 떠올려보자. 항상 내 위치가 제대로 있었는가? 그렇지 않다.
human error 또는 computer error는 존재할 가능성이 높다.
Data Quality is all you need!
Measures of data quality
- Accuracy: 데이터의 값이 정확한가?
- human error나 computer error로 인해 부정확한 데이터 저장
- 사용자가 제대로 입력하지 않아 시스템의 초기값이 저장되는 경우 (e.g. 생일이 1월 1인, Alabama 주에 거주) 이 경우에는 disguised missing data라고 부른다.
- 기술적 한계로 버퍼가 넘거나 동기화되지 않아 데이터 전송시 에러
- Completeness: 데이터가 빠짐없이 있는가?
- 여러 이유로 결측치가 존재할 수 있다. (장비 오작동으로 인한 미기록)
- Consistency: 여러 속성에 있는 데이터가 일관성 있는가?
- 일치하지 않는 데이터가 존재할 수 있다. (생일은 2010년 3월 7일인데, 현재 나이가 40세 인 경우)
- 데이터 이력이나 수정사항이 있을 수 있다. (과거에는 1, 2, 3점으로 저장했으나 현재 A, B, C로 저장)
- Timeliness: 데이터가 적시에 (제때에) 업데이트가 되어있는가
- Believability: 데이터를 믿을 수 있는가 (최근에 에러를 고쳤지만 과거에 이미 기록된 데이터는 그렇지 못하다)
- Interpretability: 데이터를 쉽게 잘 이해할 수 있는가
Major Tasks in Data Preprocessing
1. Data cleaning
- 결측치 보강
- 노이즈 순화
- 이상치 탐지/제거
- inconsistency 해결
2. Data integration
- Entity Identification Problem
- Redundancy and Correlation Analysis
- Tuple Duplication
- Data Value Conflict Detection and Resolution
3. Data reduction
- Overview of Data Reduction Strategies
- Wavelet Transforms
- Principle Components Anlysis, PCA
- Attribute Subset Selection
- Regression and Log-Linear Models: Parametric Data Reduction
- Histograms
- Clustering
- Sampling
- Data Cube Aggregation
4. Data transformation
- Data Transformation Strategies Overview
- Data Transformation by Normalization
- Discretization by Binning
- Discretization by Histogram Analysis
- Discretization by Cluster, Dicision Tree, and Correlation Analysis
- Concept Hierarchy Generation for Nomial Data
각 단계별로 자세히 풀어서 포스팅 해보겠습니다.
728x90
반응형
'스터디 > 데이터사이언스' 카테고리의 다른 글
[Data Science] Data Preprocessing (2) - Data Cleaning (0) | 2023.03.28 |
---|---|
[Data Science] Measuring Data Similarity and Dissimilarity (0) | 2023.03.22 |
[Data Science] 상관계수, Pearson, Spearman, Kendall (0) | 2023.03.17 |
[Data Science] Basic Statistical Description of Data (0) | 2023.03.14 |
[Data Science] Attribute Types (0) | 2023.03.09 |