본문 바로가기
스터디/데이터사이언스

[CS246] Dimensionality Reduction (2) - PCA

by 궁금한 준이 2023. 10. 8.
728x90
반응형

Principal Component Analysis (PCA)

PCA 알고리즘으로 생성된 새로운 차원(dimension)을 주성분(principal component)라 부른다.

원래 PCA 자체로는 차원축소가 아니지만, 이 포스트에서는 차원축소로 응용되는 특성에 대해 다룬다.

PCA:  Algorithm

데이터의 분산이 가장 큰 방향을 새로운 차원의 축으로 삼는 것이 핵심이다. (해당 축으로 데이터를 정사영했을 때 가장 range가 큰 것) 데이터의 분산이 곧 데이터의 분포를 가장 잘 설명할 것이기 때문이다. 

 

  1. 첫번째 차원: 데이터의 분산이 가장 큰 방향
  2. 두번째 차원: 첫번째 차원과 수직이면서, 데이터의 분산이 2번째로 큰 방향
  3. n번째 차원: 첫번째, 두번째, ..., (n-1)번째 차원과 모두 수직이면서, 데이터의 분산이 n번째로 큰 방향
  4. 차원을 선택하고 남은 데이터의 분산이 원하는 수준만큼 작아지면 알고리즘을 멈춘다.

PCA on 2D space

PCA as Transformation

원래 데이터 행렬을 $M_{m \times n}$, PCA 매핑 행렬을 $T_{n \times n}$, 그리고 PCA로 매핑된 데이터 행렬을 $M'_{m \times n}$라 하면 PCA는 다음과 같다.

\[ M' = MT \]

$T$으 $i$번째 컬럼을 $t_i$라 하면, $t_i$는 곧 $i$번째 주성분(PC)이고 크기가 $1$인 단위벡터이다. ($\| t_i \|_2=1$)

차원축소로의 PCA로 활용하기위해 처음 $r$개의 컬럼을 선택할 수 있다.

Output of PCA

 

728x90
반응형