본문 바로가기
728x90
반응형

전체 글266

[Data Science] Decision Tree - GINI index와 CART 알고리즘 GINI Index on NodeFormula어떤 attribute에 의하여 클래스 개수에 대한 tuple을 얻을 것이다. 이 tuple을 이용하여 각 클래스 별 비율 $p_i$를 구할 수 있다. $n$개의 클래스에 대하여 지니계수는 다음과 같이 정의한다.\[ Gini= 1-\sum_{i=1}^{n} p_i^2 \] Node Impurity의 최대와 최소node impurity가 가장 클 때는 $C$개의 클래스 집합에서, 해당 노드가 모든 클래스들이 모두 같은 비율로 나누어지면 $p_i = 1/C$이므로 $Gini_{max} = 1-1/C$이다.Node impurity가 가장 작을 때는 해당 노드가 하나의 클래스로만 나눠진 경우이다. 이 경우 하나의 $p_i=1$이고 나머지는 $p_j=0(j \neq i.. 2023. 4. 16.
[Data Science] The classification and decision tree Decision Tree 어떤 사람이 컴퓨터를 살지 (혹은 사지 않을지) 분류하는 모델의 개념도이다.각 leaf 혹은 node는 속성(attribute)를 나타낸다. 만일 age=senior이고 credit_rating=yes 라면 이 사람은 컴퓨터를 산다는 예측을 할 것이다. Tree InductionGreedy Stragegy어떤 기준으로 attribute test를 할 것인지 greedy한 방법으로 attribute 기준으로 데이터를 나눌 것이다.Issues어떻게 데이터를 나눌 것인가? (How to split?) - how to specify the attribute test condition?, how to determine the best split?언제까지 데이터를 나눌 것인가? (When .. 2023. 4. 15.
Entropy의 의미 (정보이론) Entropy in information theory정의정보이론에서, 확률변수의 엔트로피는 변수의 불확실성의 기댓값이다.$\mathcal{X}$에서 추출한 (이산)확률변수 $X$의 엔트로피를 $H(X)$라 하고 아래와 같다.\[ H(X) = -\sum_{x \in \mathcal{X}}p(x)\log{p(x)} = E[-\log{p(X)}] \]$H(X)$로 얻은 수가 정보의 양이라 할 수 있다.이때 $\log$의 밑은 도메인에 따라 달라지는데, 밑이 $2$인 경우 비트, $e$인 경우 nat(natural unit), $10$인 경우에는 dit라고 부른다. 정보의 불확실성, 그 의미는?확률적으로, 어떤 사건이 더 정보를 가질까?'정보'라고 하니 유용성과 엮여 직관적이지 않게 느껴질 수도 있다.항상 일어.. 2023. 4. 14.
확률에서의 부등식, Inequality (Markov's, Chebychev's, Cauchy-Schwartz, Jensen's, 마르코프, 체비셰프, 코시-슈바르츠, 젠센 부등식) 확률(특히 기댓값)과 관련된 부등식들이 많이 알려져 있다. 이중 4가지 부등식에 대하여 다룬다.각 부등식 마다 확률변수의 정의나 범위가 다르므로 주의한다.Markov's inequality, 마르코프 부등식음이 아닌 확률변수 $X$(즉, $X \ge 0$)와 양의 실수 $a$에 대하여 다음 부등식이 성립한다.\[ P(X \ge a) \le \cfrac{E(a)}{a} \quad X \ge 0, a > 0 \]마르코프 부등식 증명\begin{align*} P(X \ge a) &= \int_a^{\infty}f(x) \, dx \\ &\le \int_a^{\infty} \cfrac{x}{a} f(x) \, dx \quad x \in (a, \infty) \Leftrightarrow \cfrac{x}{a} \.. 2023. 4. 13.
[Pandas] iloc와 loc 차이점 Setup (1) Import libraries import numpy as np import scipy as sp import pandas as pd import matplotlib.pyplot as plt import seaborn as sns (2) load data data = sns.load_dataset('diamonds') data Filtering the data 가격이 2600 이상인 데이터만 선택하자. 이때 reset_index()를 하지 않은 상태에서 비교를 할 것이다. data_selected = data[data['price'] >= 2600] data_selected loc Access a group of rows and columns by label(s) or a boolean.. 2023. 4. 12.
[Python] 선형회귀 모델링 Linear Regression with PythonSetupseaborn에 내장되어있는 차량 연비 데이터셋을 이용할 것이다.import numpy as npimport scipy as spimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsdf = sns.load_dataset('mpg')df = df.dropna().reset_index(drop=True)dfSelect Featuressns.regplot(data=df, x='horsepower', y='mpg') (1) statsmodelsR형식의 선형회귀 모델식을 작성한다. 형식은 "Y ~ x1 + x2 + x3" 와 같이 작성한다. 계수는 모델이 계산해줄 것이다.우선 간.. 2023. 4. 12.
728x90
반응형