본문 바로가기
728x90
반응형

data science42

[Data Science] Decision Tree - Overfitting Overfitting and UnderfittingOverfitting (과적합, 과대적합)과적합은 모델이 학습 데이터에 대해 너무 잘 학습되어 기본 패턴 대신 데이터의 노이즈에 맞추기 시작할 때 발생한다.학습 데이터에 지나치게 맞추면(overfit) 이후 새로운 데이터(new, unseen data)에 대하여 일반화를 하지 못할 수 있다. Underfitting (과소적합)과소 적합은 모델이 너무 단순하여 데이터의 기본 패턴을 포착할 수 없을 때 발생한다. 이는 모델이 학습 데이터와 테스트 데이터 모두에서 제대로 작동하지 않는다는 것을 의미한다.즉, 모델이 학습 데이터에서 보이지 않는 새로운 데이터(new, unseen data)를 정확하게 예측할 수 있을 만큼 충분히 학습하지 못했다는 뜻입니다.Ove.. 2023. 4. 29.
[Data Science] Missing Values 데이터를 살펴보면 결측치가 있는 경우를 종종 볼 수 있고 그 원인도 다양하다.센서가 고장나서 데이터 수집이 중단되었거나, (설문조사의 경우) 무응답이나 응답 거부를 하거나, object(instance, record)에 모두 대응되지않는 attribute가 있는 경우(임신 여부)가 있을 수 있다. 결측치를 0으로 대체하거나 평균/중앙값으로 대체할 수 있다.그러나 결측치는 항상 결측값이 아니다. 경우에 따라 그 값을 추정할 수 있다.이전에 결측값의 종류를 파악해보자.  Types of Missing Values결측치 종류에 대하여 설명하기 전에 몇가지 notation을 정리하겠다.$X_{obs}$: 우리의 관심이 되는 변수(attribute)의 관측 값. 이 값이 존재한다면 true value를 $X$라 .. 2023. 4. 21.
[Data Science] Decision Tree - GINI index와 CART 알고리즘 GINI Index on NodeFormula어떤 attribute에 의하여 클래스 개수에 대한 tuple을 얻을 것이다. 이 tuple을 이용하여 각 클래스 별 비율 $p_i$를 구할 수 있다. $n$개의 클래스에 대하여 지니계수는 다음과 같이 정의한다.\[ Gini= 1-\sum_{i=1}^{n} p_i^2 \] Node Impurity의 최대와 최소node impurity가 가장 클 때는 $C$개의 클래스 집합에서, 해당 노드가 모든 클래스들이 모두 같은 비율로 나누어지면 $p_i = 1/C$이므로 $Gini_{max} = 1-1/C$이다.Node impurity가 가장 작을 때는 해당 노드가 하나의 클래스로만 나눠진 경우이다. 이 경우 하나의 $p_i=1$이고 나머지는 $p_j=0(j \neq i.. 2023. 4. 16.
[Data Science] The classification and decision tree Decision Tree 어떤 사람이 컴퓨터를 살지 (혹은 사지 않을지) 분류하는 모델의 개념도이다.각 leaf 혹은 node는 속성(attribute)를 나타낸다. 만일 age=senior이고 credit_rating=yes 라면 이 사람은 컴퓨터를 산다는 예측을 할 것이다. Tree InductionGreedy Stragegy어떤 기준으로 attribute test를 할 것인지 greedy한 방법으로 attribute 기준으로 데이터를 나눌 것이다.Issues어떻게 데이터를 나눌 것인가? (How to split?) - how to specify the attribute test condition?, how to determine the best split?언제까지 데이터를 나눌 것인가? (When .. 2023. 4. 15.
[Pandas] Basic Statistics 살펴보기 Import libraries 기본적으로 사용되는 파이썬 라이브러리를 import하자. import numpy as np import scipy as sp import pandas as pd import matplotlib.pyplot as plt import seaborn as sns DataFrame pandas는 다양한 형식의 파일을 읽고 쓸 수 있다. df = pd.read_csv('my_csv_file.csv') df = pd.read_excel('my_excel_file.xlsx', sheet_name='Sheet1', index_col=None, na_values=['NA']) df = pd.read_stata('my_file.dta') df = pd.read_sas('my_file.sas7.. 2023. 4. 10.
[Data Science] Association Rule Mining (7) mlxtend로 association rule을 만들어보자 앞의 포스팅에서 배운 association rule mining 알고리즘을 mlxtend 패키지를 이용하여 활용해보자.pip install mlxtend TransactionEncoder()sklearn의 OneHotEncoder, LabelEncoder 등과 거의 유사한 Encoder 클래스이다.transaction data를 numpy array로 인코딩해준다.import pandas as pdfrom mlxtend.preprocessing import TransactionEncoderdataset = [['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'], ['Dill', 'Onion', 'Nutmeg', 'Kidney Be.. 2023. 4. 4.
728x90
반응형