728x90 반응형 데이터 정제1 [Data Science] Data Preprocessing (2) - Data Cleaning 실제 세상의 데이터는 매우 더럽다. (dirty) 아래 여러 이유가 있다.Incompletemissing value가 종종 존재한다.예를 들어, 분석가는 고객의 주소가 중요하다고 생각하여 데이터를 조회했지만, 처음 DB를 구축한 사람은 그것이 중요하지 않다고 생각할 수 있기 때문이다.Noisynoise, error, outlierssalary = -10 과 같이 음수가 될 수 없는 attribute에 음수가 저장될 수 있다.Inconsistent값 자체는 문제가 없지만, 다른 attribute와 비교했을 때 오류가 있는 경우age=40인데, birthday=03/01/2020 인경우, age와 birthday는 문제없지만 현재 2023년과 비교했을 때 40세는 명백한 오류다.과거에는 평점을 1, 2, 3.. 2023. 3. 28. 이전 1 다음 728x90 반응형