본문 바로가기
728x90
반응형

데이터 분석3

[Data Science] Measuring Data Similarity and Dissimilarity Data Matrix$n$개의 object와 $p$개의 attribute를 갖는 데이터가 있다고 하자. 우리는 이런 데이터를 $n \times p$ matrix로 표현할 수 있다. \[ \begin{bmatrix} x_{11} & \cdots & x_{1f} & \cdots & x_{1p} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ x_{i1} & \cdots & x_{if} & \cdots & x_{ip} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ x_{n1} & \cdots & x_{nf} & \cdots & x_{np} \\ \end{bmatrix} \]이 때 $1$번째 object의 데이터는 $x_1 = (x.. 2023. 3. 22.
[Data Science] Basic Statistical Description of Data Keywordsbox plot, histogram, quantile plot, quantile-quantile plot, q-q plot, scatter plot Box Plotnumerical data를 5개의 수로 정리하여 그래프로 시각화한 그래프이다. Five-Number Summaryminimum, Q1, median(=Q2), Q3, maximumbox의 양 끝은 Q1과 Q3이다. 따라서 IQR은 박스의 길이가 된다. (IQR = Q3 - Q1)median은 박스 안에 한 선(line)으로 표시된다.Whiskers: 박스의 양끝 밖으로 선이 뻗어 min/max까지 이어진다.Outliers: 특정 threshold를 벗어나는 점들을 outlier라고 하고, 따로 점으로 표기된다.일반적으로 outl.. 2023. 3. 14.
[Data Science] Attribute Types Attribute, 속성attribute는 어떤 객체(object)의 성질이나 특징이다. e.g. 사람의 눈 색깔, 온도, 계좌 잔금 등 Attribute TypesCategorical: qualitativeNominal: category(범주), state(상태), namesBinray: Nominal의 특별한 경우로, 2개의 state만 있는 형태. (0과 1,  True or False, etc.)Ordinal: 순서가 있는 값. 그러나 간격의 크기는 의미를 갖지 않는다. Numeric: quantitative. discrete와 continuous한 값을 가질 수 있다.Interval: 같은 단위의 크기를 갖는 양. 0은 arbitrary-zero로 존재한다.(true-zero는 존재하지 않는다... 2023. 3. 9.
728x90
반응형