본문 바로가기
728x90
반응형

데이터 사이언스8

[Data Science] The classification and decision tree Decision Tree 어떤 사람이 컴퓨터를 살지 (혹은 사지 않을지) 분류하는 모델의 개념도이다.각 leaf 혹은 node는 속성(attribute)를 나타낸다. 만일 age=senior이고 credit_rating=yes 라면 이 사람은 컴퓨터를 산다는 예측을 할 것이다. Tree InductionGreedy Stragegy어떤 기준으로 attribute test를 할 것인지 greedy한 방법으로 attribute 기준으로 데이터를 나눌 것이다.Issues어떻게 데이터를 나눌 것인가? (How to split?) - how to specify the attribute test condition?, how to determine the best split?언제까지 데이터를 나눌 것인가? (When .. 2023. 4. 15.
[Data Science] Association Rule Mining (5) Rule Generation 앞서 Apriori 또는 FP-Growth 알고리즘을 이용하여 Frequent Itemset Mining을 할 수 있다. 이제 mining하여 얻은 pattern들로 rule을 생성할 것이다. Rule Generationfrequent itemset $L$의 모든 (공집합이 아닌) 모든 부분집합 $f$을 찾을 것이다. ($f \to L - f$)위에서 보듯이, $|L|=k$라면 가능한 모든 candidate association은 $2^k -2$개가 있다. ($L \to \varnothing$ 와 $\varnothing \to L$은 제외)보다 효과적으로 rule을 생성할 수 없을까? Anti-monotone property of Confidence일반적으로 서로 다른 rule에 대하여 confidenc.. 2023. 4. 3.
[Data Science] Association Rule Mining (1) - Introduction Motivation구글이나 네이버같은 검색엔진에 검색어를 입력하면 자동완성이 되는 것도 일종의 association rule(연관 규칙)에 기반한 추천이다. Association Rule Mining아래와 같은 거래 데이터베이스 (transaction data)가 있다고 하자. 여기서 알 수 있는 association rule은 우측 그림과 같다.여기서의 association rule은기저귀를 구매한 사람은 맥주도 구매한다. (아기 아빠는 피곤해서 맥주가 필요한 것일까? 🤣🤣)우유와 빵을 구매한 사람은 달걀과 콜라도 구매한다.맥주와 빵을 구매한 사람은 우유를 구매한다.이렇게 association rule을 찾는 알고리즘은 크게 Apriori, FP-Growth 2가지 알고리즘이 있다. Frequent.. 2023. 4. 1.
[Data Science] Data Preprocessing (5) - Data Transformation Data Transformationattribute의 모든 값을 새로운 값으로 매핑하는 함수를 의미한다.Normalizationmin-max normalizationz-score normalizationDiscretization: concept of hierarchy climbingetc NormalizationMin-max normalization: $[a, b]$로 변환$M = \max(A), \ m = \min(A)$라 하면\[ v' = \cfrac{v - m}{M- m}(b- a) + a\] Z-score normalization\[ v' = \cfrac{v - \mu_A}{\sigma_A} \] Example다음과 같이 5개의 데이터에 대하여, 각 물음의 방법으로 normalize하여라.\[ 2.. 2023. 3. 28.
[Data Science] Data Preprocessing (4) - Data Reduction StrategyDimensionality reductionwavelet transformPincipal components analysis (PCA)Feature subset selection, feature creationMunerosity reduction (data reduction)regressionhistograms, clustering, samplingdata cube aggregationData compresison Curse of dimensionality차원이 증가하면 데이터는 점점 sparse하게 공간을 차지하게 된다.sparse해지기 때문에 앞서 배운 distance가 작아져 데이터들간의 distance가 의미가 거의 없어지게 된다.차원이 $d$인 hypercube(초입방체) 내부에 .. 2023. 3. 28.
[Data Science] Data Preprocessing (2) - Data Cleaning 실제 세상의 데이터는 매우 더럽다. (dirty) 아래 여러 이유가 있다.Incompletemissing value가 종종 존재한다.예를 들어, 분석가는 고객의 주소가 중요하다고 생각하여 데이터를 조회했지만, 처음 DB를 구축한 사람은 그것이 중요하지 않다고 생각할 수 있기 때문이다.Noisynoise, error, outlierssalary = -10 과 같이 음수가 될 수 없는 attribute에 음수가 저장될 수 있다.Inconsistent값 자체는 문제가 없지만, 다른 attribute와 비교했을 때 오류가 있는 경우age=40인데, birthday=03/01/2020 인경우, age와 birthday는 문제없지만 현재 2023년과 비교했을 때 40세는 명백한 오류다.과거에는 평점을 1, 2, 3.. 2023. 3. 28.
728x90
반응형