Entropy in information theory
정의
정보이론에서, 확률변수의 엔트로피는 변수의 불확실성의 기댓값이다.
이때
정보의 불확실성, 그 의미는?
확률적으로, 어떤 사건이 더 정보를 가질까?
'정보'라고 하니 유용성과 엮여 직관적이지 않게 느껴질 수도 있다.
항상 일어나는 사건은 정보로서 가치가 있는가를 생각해보면 좋다. 그렇지 않다.
오히려 드물게 일어나는 사건이 오히려 정보로써 가치가 있다.
즉 사건
따라서 사건
예시 1. 동전 던지기
앞면과 뒷면이 나올 확률이 동일한 동전의 정보를 알아보자.
따라서 동전 던지기에 대한 정보는 1비트만으로 표현할 수 있다.
예시2. 데이터 압축
어떤 사건의 확률을 이용하여 해당 정보를 표현하는 비트수를 계산할 수 있다는 것을 알았다.
이제 데이터를 압축할 때 필요한 최소 비트수를 알아보자.
문자열 "aaaabbbcccdefg"를 표현하는데 최소 비트수를 알아보자.
각 알파벳 별로 해당 데이터에서 확률을 구하면
엔트로피를 구하면
이를 고정 길이 인코딩을 하면 (a=000, b=001, ..., g=110) 메시지 길이가 14이므로 14*3=42비트가 필요한 것에 비해 효과적이다.
응용 Information gain
엔트로피를 이용하여 정보획득(information gain)을 계산할 수 있다.
이는 decision tree에서 feature selection에 사용되는 개념으로 사용된다.
일반적으로 정보획득
'스터디 > 데이터사이언스' 카테고리의 다른 글
[Data Science] Decision Tree - GINI index와 CART 알고리즘 (0) | 2023.04.16 |
---|---|
[Data Science] The classification and decision tree (1) | 2023.04.15 |
[Pandas] iloc와 loc 차이점 (0) | 2023.04.12 |
[Python] 선형회귀 모델링 (0) | 2023.04.12 |
[Python] 데이터 시각화 (Basic) (0) | 2023.04.11 |