본문 바로가기
728x90
반응형

Linear Regression5

Multiple Linear Regression (2) - Evaluation Multiple Linear Regression - Evaluation, Analysis 다중선형회귀 모델을 fitting하면 끝인가? 그렇지 않다.다중선형회귀 모델의 기본 가정을 위반하지 않는지 확인해야 한다.기본가정을 위반하지 않아야 unseen data에 대해서도 적절한 inference를 할 수 있다.그렇지 않으면 garbage value를 얻을 것이다. $R_{adj}^2$: 조정된 결정계수결정계수($R^2$)는 회귀모형이 주어진 데이터에 얼마나 잘 맞는지 평가하는 지표이다.종속변수의 변동성을 설명하는 독립변수의 비율을 의미한다.$0 \le R^2 \le 1$이며 값이 클 수혹 모델이 데이터를 잘 설명한다는 뜻이다.그러나 독립변수가 많아지면 이 식이 왜곡될 수 있다.$R^2$는 독립변수가 많아지.. 2024. 10. 14.
Multiple Linear Regression (1) - Modeling Multiple Linear Regression (다중선형회귀)Setupresponse variable $y$가 $k$개의 input variable $x_1, x_2, \dots, x_k$의 함수로 모델링한다고 하자. 즉\[ y_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_k x_{ki} + \epsilon_i \] coefficient $\beta_0, \beta_1, \dots, \beta_k$는 unknown prameter이고 $\epsilon_i$는 $N(0, \sigma^2)$를 따르는 error term이다. $k=1$인 경우에는 이전에 설명한 단순선형회귀(simple linear regression)이라 한다.  $\mathbf{x} = (x_1, x.. 2024. 10. 12.
단순선형회귀 (Simple Linear Regression Model) Simple Linear Regression (단순 선형회귀)Model Definition and Assumptions$n$개의 관측된 데이터 $(x_1, y_1), \dots, (x_n, y_n)$에 대하여 $x$와 $y$가 어떻게 연관되어있는지 알고싶다.특별히, 선형적 관계에 있는 모형을 설계할 수 있다.\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i \quad \epsilon_i \sim N(0, \sigma^2) \]$y$를 $x$에 따른 확률변수로 생각하여 다음과 같이 모형을 설계한다.\[ Y_i \sim N(\beta_0 + \beta_1 x_i, \sigma^2) \]※ $x$는 predictor/explanatory/independent variable로 불린.. 2024. 6. 2.
[Data Science] Linear Regression \[ f(\mathbf{x}) = w_0 + w_1 x_1 + w_2 x_2 + \dots \]위의 형태로 선형 데이터를 fitting하는 모델을 선형회귀(linear regression)이라 한다. 또는 아래와 같이 표현하기도 한다.\[ y = \beta_0 + \beta_1 x_1 + \cdots + \epsilon \] objective functionminimize the squared error squared error는 large error에 대하여 더 penalize한다.그러나 data sensitive하다는 단점이 있다. (erroneous data, outliers, etc.) Least Squares Method (최소제곱법, 최소자승법)least square criterion을 이용하.. 2023. 5. 12.
[Python] 선형회귀 모델링 Linear Regression with PythonSetupseaborn에 내장되어있는 차량 연비 데이터셋을 이용할 것이다.import numpy as npimport scipy as spimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsdf = sns.load_dataset('mpg')df = df.dropna().reset_index(drop=True)dfSelect Featuressns.regplot(data=df, x='horsepower', y='mpg') (1) statsmodelsR형식의 선형회귀 모델식을 작성한다. 형식은 "Y ~ x1 + x2 + x3" 와 같이 작성한다. 계수는 모델이 계산해줄 것이다.우선 간.. 2023. 4. 12.
728x90
반응형