[Data Science] Basic Statistical Description of Data
Keywordsbox plot, histogram, quantile plot, quantile-quantile plot, q-q plot, scatter plot Box Plotnumerical data를 5개의 수로 정리하여 그래프로 시각화한 그래프이다. Five-Number Summaryminimum, Q1, median(=Q2), Q3, maximumbox의 양 끝은 Q1과 Q3이다. 따라서 IQR은 박스의 길이가 된다. (IQR = Q3 - Q1)median은 박스 안에 한 선(line)으로 표시된다.Whiskers: 박스의 양끝 밖으로 선이 뻗어 min/max까지 이어진다.Outliers: 특정 threshold를 벗어나는 점들을 outlier라고 하고, 따로 점으로 표기된다.일반적으로 outl..
2023. 3. 14.
이산확률분포 그려보기 (Python)
파이썬 코드로 이산확률분포가 파라미터에 따라 어떻게 그려지는지 알아보자. import numpy as np from scipy.special import binom, comb import matplotlib.pyplot as plt Binomial Distribution, 이항분포 def binomial(x, n, theta): return comb(n, x) * (theta ** x) * ((1 - theta) ** (n - x)) params = [(20, 0.3), (20, 0.5), (20, 0.7), (26, 0.9)] fig, axes = plt.subplots(1, 4, figsize=(24, 4)) for ax, (n, theta) in zip(axes, params): print(n, t..
2023. 3. 10.
Discrete Random Variables and Distributions (확률변수, 이산확률분포)
Keywordsrandom variables, distribution, discrete distribution, degenerate distribution, bernoulli distribution, binomial distribution, geometric distribution, nagative-binomial distribution, poisson distribution, hypergeometric distribution확률변수, 분포, 이산 확률 분포, 퇴화 분포, 베르누이 분포, 이항분포, 기하 분포, 음이항 분포, 포아송 분포, 초기하 분포 Random Variable, 확률변수; RV, rv이전 단원에서 확률측도 $P$와 표본공간 $S$를 정의하였다. 확률모델에 확률변수를 정의할 것이다. 직..
2023. 3. 9.