728x90
반응형
Principal Component Analysis (PCA)
PCA 알고리즘으로 생성된 새로운 차원(dimension)을 주성분(principal component)라 부른다.
원래 PCA 자체로는 차원축소가 아니지만, 이 포스트에서는 차원축소로 응용되는 특성에 대해 다룬다.
PCA: Algorithm
데이터의 분산이 가장 큰 방향을 새로운 차원의 축으로 삼는 것이 핵심이다. (해당 축으로 데이터를 정사영했을 때 가장 range가 큰 것) 데이터의 분산이 곧 데이터의 분포를 가장 잘 설명할 것이기 때문이다.
- 첫번째 차원: 데이터의 분산이 가장 큰 방향
- 두번째 차원: 첫번째 차원과 수직이면서, 데이터의 분산이 2번째로 큰 방향
- n번째 차원: 첫번째, 두번째, ..., (n-1)번째 차원과 모두 수직이면서, 데이터의 분산이 n번째로 큰 방향
- 차원을 선택하고 남은 데이터의 분산이 원하는 수준만큼 작아지면 알고리즘을 멈춘다.
PCA as Transformation
원래 데이터 행렬을 $M_{m \times n}$, PCA 매핑 행렬을 $T_{n \times n}$, 그리고 PCA로 매핑된 데이터 행렬을 $M'_{m \times n}$라 하면 PCA는 다음과 같다.
\[ M' = MT \]
$T$으 $i$번째 컬럼을 $t_i$라 하면, $t_i$는 곧 $i$번째 주성분(PC)이고 크기가 $1$인 단위벡터이다. ($\| t_i \|_2=1$)
차원축소로의 PCA로 활용하기위해 처음 $r$개의 컬럼을 선택할 수 있다.
728x90
반응형
'스터디 > 데이터사이언스' 카테고리의 다른 글
[CS246] Dimensionality Reduction (4) - CUR Decomposition (0) | 2023.10.11 |
---|---|
[CS246] Dimensionality Reduction (3) - SVD (0) | 2023.10.10 |
[CS246] Dimensionality Reduction (1) - Introduction (0) | 2023.10.07 |
[CS246] CURE Algorithm: Extension of k-means to clusters of arbitrary shapes (0) | 2023.10.02 |
[CS246] BFR Algorithm: Extension of k-means to large data (0) | 2023.10.01 |