본문 바로가기
728x90
반응형

스터디/데이터사이언스88

[CS224w, 2018] Network Centrality Motivation social network가 주어졌을 때, 어떤 node가 더 중요 (more important, influential) 할까? 이때 centrality measure는 node 중요도를 설명해줄 수 있다. Centrality measure로 Geometric measure, Spectral measure, Path-based measure, Subgraph-based measure가 있다. Geometric Measures In-degree Centrality \[ c_{\text{deg}}(x) = d_{in}(x) \] distance가 $1$인 node의 개수이다. 또한 majority voting과 동일하다. Closeness Centrality 더 central한 node일.. 2023. 10. 16.
[CS246] RecSys (3) - Collaborative Filtering (CF) Collaborative FilteringContent-based 방법은 다른 user의 정보를 이용하지 않고 item profile을 이용했다. (user profile도 사실상 item profile에서 만들었음). Collaborative Filtering(CF)은 다른 user의 정보를 이용하여 item을 추천해주는 방법이다. 이 방법은 item이나 user profile을 만들지 않는다. 대신에 utility matrix의 row/column을 이용한다. user-user collaborative filtering과 item-item collaborative filtering 이렇게 2가지 방법이 존재한다.User-User Collaborative Filteringuser X의 rating과 유.. 2023. 10. 13.
[CS246] RecSys (2) - Content-based Approach Main ideaitem은 profile(혹은 feature라고도 부른다.)을 갖는다.item이 video라면 [장르, 감독, 배우, 줄거리, 개봉연도 등] 의 profile을 갖고,item이 new라면 [keyword 집합] 을 profile로 가질 수 있다. 추천시스템은 customer $x$에게 과거 높은 점수(highly rated)를 가진 item과 유사한 item을 추천해주는 방법이다.Item Profiles이제 item profile을 만들어보자. Profile은 feature의 집합(또는 feature vector)로 나타낼 수 있다.위에서 언급한 movie의 profile은  [장르, 감독, 배우, 줄거리, 개봉연도 ] 이므로 vector이고,text document와 같은 경우 {key.. 2023. 10. 13.
[CS246] RecSys (1) - Introduction Recommender Systems Web application에서는 user의 반응(response)를 예측해야하는 영역이 있는데, 이를 추천시스템(recommender systems, RecSys) 이라 부른다.유저의 기존 관심사를 바탕으로 새로운 온라인 뉴스기사를 추천해주거나, 전자상거래에서 과거 구매목록을 이용하여 새로운 상품을 추천해주는 것이 예가 된다. From Scarcity to Abundance최근 온라인의 발달로 Web(혹은 Online)에서 이런 추천시스템이 가능해졌다.과거 Shelf space의 경우에는 제한된 공간과 판매원에 의존했지만, Web space에서는 사실상 모든 user에게 정보를 제공할 수 있다. ※  물론 추천시스템이 만능은 아니다. 경우에 따라 association.. 2023. 10. 12.
[CS246] Dimensionality Reduction (4) - CUR Decomposition Motivation실제 세계에서 데이터행렬(data matrix)은 매우 희소하다. (very sparse)그러나 SVD로 분해하여 얻은 2개의 singular vector $U$, $V$는 sparse 하지 않다.물론 $\Sigma$는 sparse하지만 $U$와 $V$에 비해 너무 크기가 작기 때문에 메모리 측면에서 별로 도움이 되지 않는다. 이런 이유로 행렬을 sparsity를 유지하면서 (의미있게) 분해할 필요가 있다.CUR DecompositionCUR 분해의 목표는 $\| M - CUR \|_F$ 의 값을 최소화 하는 것이다.$C$는 column에서 랜덤하게 $r$개 뽑은 컬럼벡터, $R$은 row에서 랜덤하게 $r$개 뽑은 로우벡터가 된다.$U$는 $C$와 $R$의 교집합으로 이루어진 정방행렬.. 2023. 10. 11.
[CS246] Dimensionality Reduction (3) - SVD Singular Value Decomposition (SVD)특이값분해(SVD)와 관련 용어를 잠시 복습하고 가자.행렬 $M$을 SVD 분해하면 아래와 같이 3개의 행렬을 얻게 된다. $M_{m \times n}$: input data matrix$U_{m \times r}$: left singular vector$\Sigma_{r \times r}$: singular values. 대각행렬이고 각 성분($\sigma_i$)은 'concept'의 강도(strength)를 나타낸다. $V_{n \times r}$: right singular vector$r$은 $r=\text{rank}(M)$ 이고, $U$와 $V$는 column-orthonormal이다.\[ M \approx U \Sigma V^\top.. 2023. 10. 10.
728x90
반응형