본문 바로가기
728x90
반응형

스터디/데이터사이언스88

[Data Science] Mediator, Moderator Mediator (intermediate variable, mediating variable, 매개변수)두 변수 (주로 독립변수와 종속변수)의 관계(이유, 매커니즘 등)를 설명한다.그러나 매개변수 자체가 인과관계(causality)를 의미하지 않는다. (모델링이 가능하다는 것이다) 예시로 운동($X$)이 정신건강($Y$)에 미치는 영향에 대한 가설($X \to Y$)을 고려해보자.그러나 실제로는 자존감이라는 매개변수($Me$)가 운동에 영향을 받고, 자존감이 정신건강에 영향을 주는 모형으로 설명할 수 있다. Mediation Effiect어떤 변수 $M$이 mediator의 효과가 있는지 알아보기 위해서 3개의 regression이 필요하다.$Y = b_0 + b_1X + e$$M = b_0 + b_2X.. 2023. 5. 15.
Dummy coding, Effect Coding 범주형 변수(categorical variables)를 regression model의 input으로 사용할 때 2가지 방법을 고려할 수 있다.예시로 4개의 범주(초등, 중등, 고등, 초등교육 미만)를 사용한다. $G = \{ G_1,\ G_2,\ G_3,\ G_4 \}$$G_1$: Primary$G_2$: Secondary$G_3$: Post-secondary$G_4$: Less than primaryDummy coding4개의 범주에 대하여 해당 범주면 1, 아니면 0으로 할당하는 방법을 생각할 수 있다.이때 마지막 범주의 경우 모두 0으로 표현하면 $k$개의 범주에 대하여 길이가 $(k-1)$개의 더미만 필요하다. Note: One-hot encoding은 $k$개의 범주를 $k$개의 더미 변수로 .. 2023. 5. 15.
[Data Science] Logistic Regression Class Probability Estimation많은 task중에서 어떤 instance가 주어졌을 때 어떤 class에 해당할지 예측하고 싶다.예를 들어 fraud detection은 baking이나 commerce에서 중요한 이슈이다.다행히도, linear model을 이용하여 binary class일 확률을 예측할 수 있다. \[ f(\mathbf{x}) = w_0 + w_1 x_1 + \cdots + w_n x_n \]그러나 우리가 예측할 class일 확률은 $[0, 1]$인데, $f(\mathbf{x})$의 범위는 $(-\infty, \infty)$이다. 이를 해결하기 위해 log-odds를 도입한다.odd는 likelihood of an event로, 일어날 확률와 일어나지 않는 확률의 비이.. 2023. 5. 14.
[Data Science] Linear Regression \[ f(\mathbf{x}) = w_0 + w_1 x_1 + w_2 x_2 + \dots \]위의 형태로 선형 데이터를 fitting하는 모델을 선형회귀(linear regression)이라 한다. 또는 아래와 같이 표현하기도 한다.\[ y = \beta_0 + \beta_1 x_1 + \cdots + \epsilon \] objective functionminimize the squared error squared error는 large error에 대하여 더 penalize한다.그러나 data sensitive하다는 단점이 있다. (erroneous data, outliers, etc.) Least Squares Method (최소제곱법, 최소자승법)least square criterion을 이용하.. 2023. 5. 12.
[Data Science] Bayesian Classifier Bayesian Classifierattribute와 class label이 random variable이라 생각하면 attribute tuple이 주어졌을 때 특정 class label일 확률이 최대가 되는 클래스가 정답이라는 접근방법이다. 이때 attribute는 $(A_1, A_2, \dots, A_n)$이고 class label은 $C$라 하면\[ \max P(C | A_1, \dots, A_n) \]이 되는 $C$를 찾는 것이다. 그렇다면 $P(C | A_1, \dots, A_n)$을 어떻게 구할까? 이 때, bayes theorem을 이용하면 다음과 같다.\[ P(C | A_1, \dots, A_n) = \cfrac{P(A_1, \dots, A_n|C) P(C)}{P(A_1, \dots, A_.. 2023. 5. 3.
[Data Science] Decision Tree in Python (with Scikit-learn) Decision Tree in Scikit learn 사이킷런 공식 문서에 따르면, 사이킷런의 Decision Tree는 CART 알고리즘을 바탕으로 최적화되어 구현되어있다. 그러나 categorical variable을 더이상 지원하지 않는다. https://scikit-learn.org/stable/modules/tree.html#tree-algorithms-id3-c4-5-c5-0-and-cart Decision Tree Tutorial with Iris dataset 사이킷런의 붓꽃 데이터셋을 이용하여 간단하게 decision tree를 학습해보자. load dataset and fit the classifier from sklearn.datasets import load_iris from skl.. 2023. 5. 1.
728x90
반응형