본문 바로가기
728x90
반응형

데이터 마이닝6

[Data Science] The classification and decision tree Decision Tree 어떤 사람이 컴퓨터를 살지 (혹은 사지 않을지) 분류하는 모델의 개념도이다.각 leaf 혹은 node는 속성(attribute)를 나타낸다. 만일 age=senior이고 credit_rating=yes 라면 이 사람은 컴퓨터를 산다는 예측을 할 것이다. Tree InductionGreedy Stragegy어떤 기준으로 attribute test를 할 것인지 greedy한 방법으로 attribute 기준으로 데이터를 나눌 것이다.Issues어떻게 데이터를 나눌 것인가? (How to split?) - how to specify the attribute test condition?, how to determine the best split?언제까지 데이터를 나눌 것인가? (When .. 2023. 4. 15.
[Data Science] Association Rule Mining (5) Rule Generation 앞서 Apriori 또는 FP-Growth 알고리즘을 이용하여 Frequent Itemset Mining을 할 수 있다. 이제 mining하여 얻은 pattern들로 rule을 생성할 것이다. Rule Generationfrequent itemset $L$의 모든 (공집합이 아닌) 모든 부분집합 $f$을 찾을 것이다. ($f \to L - f$)위에서 보듯이, $|L|=k$라면 가능한 모든 candidate association은 $2^k -2$개가 있다. ($L \to \varnothing$ 와 $\varnothing \to L$은 제외)보다 효과적으로 rule을 생성할 수 없을까? Anti-monotone property of Confidence일반적으로 서로 다른 rule에 대하여 confidenc.. 2023. 4. 3.
[Data Science] Data Preprocessing (5) - Data Transformation Data Transformationattribute의 모든 값을 새로운 값으로 매핑하는 함수를 의미한다.Normalizationmin-max normalizationz-score normalizationDiscretization: concept of hierarchy climbingetc NormalizationMin-max normalization: $[a, b]$로 변환$M = \max(A), \ m = \min(A)$라 하면\[ v' = \cfrac{v - m}{M- m}(b- a) + a\] Z-score normalization\[ v' = \cfrac{v - \mu_A}{\sigma_A} \] Example다음과 같이 5개의 데이터에 대하여, 각 물음의 방법으로 normalize하여라.\[ 2.. 2023. 3. 28.
[Data Science] Data Preprocessing (4) - Data Reduction StrategyDimensionality reductionwavelet transformPincipal components analysis (PCA)Feature subset selection, feature creationMunerosity reduction (data reduction)regressionhistograms, clustering, samplingdata cube aggregationData compresison Curse of dimensionality차원이 증가하면 데이터는 점점 sparse하게 공간을 차지하게 된다.sparse해지기 때문에 앞서 배운 distance가 작아져 데이터들간의 distance가 의미가 거의 없어지게 된다.차원이 $d$인 hypercube(초입방체) 내부에 .. 2023. 3. 28.
[Data Science] Measuring Data Similarity and Dissimilarity Data Matrix$n$개의 object와 $p$개의 attribute를 갖는 데이터가 있다고 하자. 우리는 이런 데이터를 $n \times p$ matrix로 표현할 수 있다. \[ \begin{bmatrix} x_{11} & \cdots & x_{1f} & \cdots & x_{1p} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ x_{i1} & \cdots & x_{if} & \cdots & x_{ip} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ x_{n1} & \cdots & x_{nf} & \cdots & x_{np} \\ \end{bmatrix} \]이 때 $1$번째 object의 데이터는 $x_1 = (x.. 2023. 3. 22.
[Data Science] Basic Statistical Description of Data Keywordsbox plot, histogram, quantile plot, quantile-quantile plot, q-q plot, scatter plot Box Plotnumerical data를 5개의 수로 정리하여 그래프로 시각화한 그래프이다. Five-Number Summaryminimum, Q1, median(=Q2), Q3, maximumbox의 양 끝은 Q1과 Q3이다. 따라서 IQR은 박스의 길이가 된다. (IQR = Q3 - Q1)median은 박스 안에 한 선(line)으로 표시된다.Whiskers: 박스의 양끝 밖으로 선이 뻗어 min/max까지 이어진다.Outliers: 특정 threshold를 벗어나는 점들을 outlier라고 하고, 따로 점으로 표기된다.일반적으로 outl.. 2023. 3. 14.
728x90
반응형