728x90 반응형 분류 전체보기266 [Data Science] Data Preprocessing (3) - Data Integration Data Integration다양한 데이터 소스들을 data warehouse에 종합하는 작업을 말한다.이 때 다양한 이슈들이 발생할 수 있다.예를 들어, schema integration, entity resolution, redundancy, inconsistency Schema integrationheterogeneous shema들을 통합해야 한다.이때 같은 의미를 갖는데, 스키마에 따라 다르게 정의될 수 있는데, 이를 통합한다.A.cus_id는 B.custumer_id와 동일하게 고객식별번호이다.Entity resolution다양한 source에 기록된 record들을 식별해야한다. 특히 real-world entity에 동일하게 대응되는 고유명사(사람 이름 등)에서 많이 발생한다.Redund.. 2023. 3. 28. [Data Science] Data Preprocessing (2) - Data Cleaning 실제 세상의 데이터는 매우 더럽다. (dirty) 아래 여러 이유가 있다.Incompletemissing value가 종종 존재한다.예를 들어, 분석가는 고객의 주소가 중요하다고 생각하여 데이터를 조회했지만, 처음 DB를 구축한 사람은 그것이 중요하지 않다고 생각할 수 있기 때문이다.Noisynoise, error, outlierssalary = -10 과 같이 음수가 될 수 없는 attribute에 음수가 저장될 수 있다.Inconsistent값 자체는 문제가 없지만, 다른 attribute와 비교했을 때 오류가 있는 경우age=40인데, birthday=03/01/2020 인경우, age와 birthday는 문제없지만 현재 2023년과 비교했을 때 40세는 명백한 오류다.과거에는 평점을 1, 2, 3.. 2023. 3. 28. 다항분포, Multinomial Distribution Multinomial Distribution, 다항분포categorical variable에 대한 모델링에 유용한 분포다. k개의 범주(category)가 있고, s개의 반응(response)에 대하여 P(s=i)=θi로 표기할 수 있다.Xi는 n개의 반응(response) 중에서 s=i인 반응의 개수이다. (X1,X2,…,Xn)∼Multinomial(n,θ1,θ2,…,θk) \[ p(x, \dots, x_n) = \dbinom{n}{x_1\dots x_k}\theta_1^{x_1} \cdots \theta_k^{x_k} = \cfrac{n!}{x_1! \times \cdots \t.. 2023. 3. 23. 조건부확률과 독립 (Conditioning, Independence) Section 8. Conditioning and Independence. 조건부확률과 독립Conditional distribution of Y given X=xP(Y∈B|X=x)=P(Y∈B,X=x)P(X=x)Conditional distribution - DiscretepY|X(y|x)=pX,Y(x,y)pX(x)Conditional distribution - Continuousconditional density of Y, given X=xfY|X(y|x)=fX,Y(x,y)fX(x)따라서 확률 P(a≤Y≤b|X=x)를 구하면\[ P(.. 2023. 3. 23. 결합확률분포, Joint Distribution Section 7. Joint DistributionsJoint Cumulative Distribution Functions, 결합 누적 분포 함수확률면수 X, Y에 대하여 둘의 분포를 정확히 알 고 있다고 하자. 그러나 이 둘의 관계(relationship)에 대해서는 아는바가 없다. Joint Cumulative Distribution Functions, 결합 누적 분포 함수, joint cdfs두 확률변수 X,Y에 대하여 결합누적분포함수 FX,Y:R→[0,1]을 다음과 같이 정의한다.FX,Y(x,y)=P(X≤x,Y≤y)Note: comma(,)는 "and"를 의미한다. 즉 $P(X \le x \ and \ .. 2023. 3. 23. [Data Science] Measuring Data Similarity and Dissimilarity Data Matrixn개의 object와 p개의 attribute를 갖는 데이터가 있다고 하자. 우리는 이런 데이터를 n×p matrix로 표현할 수 있다. [x11⋯x1f⋯x1p⋯⋯⋯⋯⋯xi1⋯xif⋯xip⋯⋯⋯⋯⋯xn1⋯xnf⋯xnp]이 때 1번째 object의 데이터는 $x_1 = (x.. 2023. 3. 22. 이전 1 ··· 31 32 33 34 35 36 37 ··· 45 다음 728x90 반응형