Class Probability Estimation
많은 task중에서 어떤 instance가 주어졌을 때 어떤 class에 해당할지 예측하고 싶다.
예를 들어 fraud detection은 baking이나 commerce에서 중요한 이슈이다.
다행히도, linear model을 이용하여 binary class일 확률을 예측할 수 있다.
그러나 우리가 예측할 class일 확률은
이를 해결하기 위해 log-odds를 도입한다.
odd는 likelihood of an event로, 일어날 확률와 일어나지 않는 확률의 비이다. 즉
여기에 로그(보통 밑이
각각 합성되는 과정은 일대일대응이고 증가함수이다.

따라서 우리는 선형모델

Note: log-odds를 예측한다는 의미에서 logistic "regression"이지만 실제 target variable이 categorical이므로 classification이다.
Logistic Regression
여기서
이는 시그모이드 함수와 동일하다.

Objective Function
이상적으로,
Interpreting Logistic Regression
그렇다면 logistic regression을 통해 얻은 coefficient
간단히
이는 log-odd는
smoking과 10-year Heart Disease의 logistic regression이 다음과 같다고 하자.
- 흡연 그룹은 비흡연 그룹에 비하여 log-odd가 1.46배 많다.
- 흡연 그룹은 비흡연 그룹에 비하여 심장병에 걸릴 확률이 1.46배 높다.
- 흡연 그룹은 비흡연 그룹에 비하여 심장볍에 걸릴 확률이 46% 더 높다.
만일
참고
https://towardsdatascience.com/https-towardsdatascience-com-what-and-why-of-log-odds-64ba988bf704
WHAT and WHY of Log Odds
WHAT are Log Odds and WHY are they useful
towardsdatascience.com
https://quantifyinghealth.com/interpret-logistic-regression-coefficients/
Interpret Logistic Regression Coefficients [For Beginners] – QUANTIFYING HEALTH
The logistic regression coefficient β associated with a predictor X is the expected change in log odds of having the outcome per unit change in X. So increasing the predictor by 1 unit (or going from 1 level to the next) multiplies the odds of having the
quantifyinghealth.com
'스터디 > 데이터사이언스' 카테고리의 다른 글
[Data Science] Mediator, Moderator (0) | 2023.05.15 |
---|---|
Dummy coding, Effect Coding (0) | 2023.05.15 |
[Data Science] Linear Regression (0) | 2023.05.12 |
[Data Science] Bayesian Classifier (0) | 2023.05.03 |
[Data Science] Decision Tree in Python (with Scikit-learn) (0) | 2023.05.01 |