[Data Science] 상관계수, Pearson, Spearman, Kendall
상관 계수한국어 위키백과) 두 변수 사이의 통계적 관계를 표현하기 위해 상관관계의 정도를 수치적으로 나타낸 계수.여러 유형의 상관 계수가 존재하고, 모두 $[-1, 1]$의 범위를 갖는다. $\pm 1$은 강한 상관성을, $0$은 상관성이 없다는 뜻이다.가장 중요한 유의점으로, 상관계수가 큰 것이 인과관계를 나타내지 않는다. (인과 관계를 알아내기 위해서는 보다 복잡한 과정이 필요하다. 추후 설명할 예정)Pearson's r, PCC(Pearson's Correlation Coefficient)두 확률변수 $X, Y$에 대하여 선형적(linear) 상관관계를 측정한다. 모집단(population)을 알 때의 상관계수와 표본에서의 상관계수의 정의가 다르다.우선, 모집단 상관계수는\[ \rho_{X, Y} ..
2023. 3. 17.
연속확률분포, Continuous Distribution
Keywords연속확률변수, 확률밀도함수, 균등분포, 지수분포, 감마함수, 감마분포, 베타함수, 베타분포, 표준정규분포, 정규분포, 카이제곱분포Continuous Random Variable, probability density function, density, density function, uniform distribution, exponential distribution, gamma function, gamma distribution, beta function, beta distribution, standard normal distribution, normal distribution, chi-squared distribution Continuous Random Variable확률변수 $X$가 모든..
2023. 3. 16.
[Data Science] Basic Statistical Description of Data
Keywordsbox plot, histogram, quantile plot, quantile-quantile plot, q-q plot, scatter plot Box Plotnumerical data를 5개의 수로 정리하여 그래프로 시각화한 그래프이다. Five-Number Summaryminimum, Q1, median(=Q2), Q3, maximumbox의 양 끝은 Q1과 Q3이다. 따라서 IQR은 박스의 길이가 된다. (IQR = Q3 - Q1)median은 박스 안에 한 선(line)으로 표시된다.Whiskers: 박스의 양끝 밖으로 선이 뻗어 min/max까지 이어진다.Outliers: 특정 threshold를 벗어나는 점들을 outlier라고 하고, 따로 점으로 표기된다.일반적으로 outl..
2023. 3. 14.