본문 바로가기

728x90

분류 전체보기268

[Sampling] Markov Chain Monte Carlo (MCMC) (3) - Gibbs sampling Gibbs SamplingGibbs sampling은 MCMC 기법 중에서 Metropolis-Hastings 알고리즘의 특수한 형태이다.확률변수가 다음과 같을 때 사용할 수 있다.$x = [x_1, x_2, \dots, x_d]^\top$이고 target distribution이 $p(x)$일 때 다음을 만족하면 Gibbs sampling을 적용할 수 있다.\[ x_i \sim p(x_i | x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_d) \]$x_i$가 $x \setminus x_i$ condition에서 샘플링되는 조건이다.Gibbs sampling algorithm랜덤하게 $x^{(1)}$를 초기화한다.for $t=1, \dots$ do $x^{(t+1)} = x^.. 2023. 10. 14.

[CS246] RecSys (3) - Collaborative Filtering (CF) Collaborative FilteringContent-based 방법은 다른 user의 정보를 이용하지 않고 item profile을 이용했다. (user profile도 사실상 item profile에서 만들었음). Collaborative Filtering(CF)은 다른 user의 정보를 이용하여 item을 추천해주는 방법이다. 이 방법은 item이나 user profile을 만들지 않는다. 대신에 utility matrix의 row/column을 이용한다. user-user collaborative filtering과 item-item collaborative filtering 이렇게 2가지 방법이 존재한다.User-User Collaborative Filteringuser X의 rating과 유.. 2023. 10. 13.

[CS246] RecSys (2) - Content-based Approach Main ideaitem은 profile(혹은 feature라고도 부른다.)을 갖는다.item이 video라면 [장르, 감독, 배우, 줄거리, 개봉연도 등] 의 profile을 갖고,item이 new라면 [keyword 집합] 을 profile로 가질 수 있다. 추천시스템은 customer $x$에게 과거 높은 점수(highly rated)를 가진 item과 유사한 item을 추천해주는 방법이다.Item Profiles이제 item profile을 만들어보자. Profile은 feature의 집합(또는 feature vector)로 나타낼 수 있다.위에서 언급한 movie의 profile은 [장르, 감독, 배우, 줄거리, 개봉연도 ] 이므로 vector이고,text document와 같은 경우 {key.. 2023. 10. 13.

[CS246] RecSys (1) - Introduction Recommender Systems Web application에서는 user의 반응(response)를 예측해야하는 영역이 있는데, 이를 추천시스템(recommender systems, RecSys) 이라 부른다.유저의 기존 관심사를 바탕으로 새로운 온라인 뉴스기사를 추천해주거나, 전자상거래에서 과거 구매목록을 이용하여 새로운 상품을 추천해주는 것이 예가 된다. From Scarcity to Abundance최근 온라인의 발달로 Web(혹은 Online)에서 이런 추천시스템이 가능해졌다.과거 Shelf space의 경우에는 제한된 공간과 판매원에 의존했지만, Web space에서는 사실상 모든 user에게 정보를 제공할 수 있다. ※ 물론 추천시스템이 만능은 아니다. 경우에 따라 association.. 2023. 10. 12.

[CS246] Dimensionality Reduction (4) - CUR Decomposition Motivation실제 세계에서 데이터행렬(data matrix)은 매우 희소하다. (very sparse)그러나 SVD로 분해하여 얻은 2개의 singular vector $U$, $V$는 sparse 하지 않다.물론 $\Sigma$는 sparse하지만 $U$와 $V$에 비해 너무 크기가 작기 때문에 메모리 측면에서 별로 도움이 되지 않는다. 이런 이유로 행렬을 sparsity를 유지하면서 (의미있게) 분해할 필요가 있다.CUR DecompositionCUR 분해의 목표는 $\| M - CUR \|_F$ 의 값을 최소화 하는 것이다.$C$는 column에서 랜덤하게 $r$개 뽑은 컬럼벡터, $R$은 row에서 랜덤하게 $r$개 뽑은 로우벡터가 된다.$U$는 $C$와 $R$의 교집합으로 이루어진 정방행렬.. 2023. 10. 11.

[CS246] Dimensionality Reduction (3) - SVD Singular Value Decomposition (SVD)특이값분해(SVD)와 관련 용어를 잠시 복습하고 가자.행렬 $M$을 SVD 분해하면 아래와 같이 3개의 행렬을 얻게 된다. $M_{m \times n}$: input data matrix$U_{m \times r}$: left singular vector$\Sigma_{r \times r}$: singular values. 대각행렬이고 각 성분($\sigma_i$)은 'concept'의 강도(strength)를 나타낸다. $V_{n \times r}$: right singular vector$r$은 $r=\text{rank}(M)$ 이고, $U$와 $V$는 column-orthonormal이다.\[ M \approx U \Sigma V^\top.. 2023. 10. 10.

이전 1 ··· 10 11 12 13 14 15 16 ··· 45 다음

728x90

티스토리툴바