728x90 반응형 스터디/데이터사이언스88 [CS246] Word2Vec Word2Vec: Embedding the word2013년 발표된 논문 "Efficient Estimation of Word Representations in Vector Space"도 벌써 10년이 되어간다. 딥러닝 모델을 이용한 임베딩 중 가장 유명한 방법론이 아닐까 싶다. word2vec를 구현하는 방법은 CBOW(Continuous Bag-of-Words)와 skip-gram(Continuous Skip-gram)이 있고, 여기서는 skip-gram만 설명한다.Target and ContextKey idea는 "같은 context에서 같이 등장하는 단어끼리는 의미가 가깝다"이다. 여기서 의미는 단어 그대로의 사전적 의미는 아니고 문맥적 의미라고 생각하면 되겠다. (like와 hate는 사전적 의.. 2023. 11. 10. [CS246] TrustRank vs. LinkFarms TrustRank: Bias Random Walk to trustworthy pagesLink Farms: Create link to boost PageRank of particular pagespammer들은 구글의 PageRank를 역이용하여 특정 페이지의 pagerank score를 극대화시켜 페이지 상단에 노출시키려 한다. spammer의 시각에서 웹페이지는 3개의 종류가 있다.Owned pages: spammer가 소유권을 가지고 있어서 무엇이든 할 수 있는 페이지. (completely control)Accessible pages: 소유권은 없지만, 댓글 등으로 자신의 링크를 post할 수 있는 페이지. 블로그 댓글, 뉴스 댓글 또는 위키피디아의 링크 등이 있다.Inaccessible page.. 2023. 11. 6. [CS246] Topic-Specific PageRank Topic-Specific PageRank: Measure importance within a topicMotivation사용자가 웹 서핑을 할때는 페이지의 중요도(importance) 뿐만 아니라 사용자의 주제(topic)도 반영해야 한다.standard PageRank에서는 모든 페이지에 랜덤하게 teloport하지만, topic-specific한 주제들에서만 연관검색이 되도록 teleport set $S$를 이용한다. Matrix Formulation\[ A_{ij} = \begin{cases} \beta M_{ij} + (1-\beta) / |S| & \text{if } i \in S \\ \beta M_{ij} & \text{otherwise} \end{cases} \] Example: Topi.. 2023. 11. 5. [CS246] PageRank PageRank: Ranking Nodes on the GraphWeb as a Directed GraphWeb 데이터는 방향그래프로 나타낼 수 있다. 노드는 webpage, edge는 hyperlink로 대응하여 생각할 수 있다.그래프 용어가 나오므로 익숙하지 않다면 여기를 참고해도 좋다.https://trivia-starage.tistory.com/213 [CS224w, 2018] Network RepresentationDirected & Undirected 위 그림의 왼쪽 빨간색 그래프는 무방향 그래프(undirected graph)이다. link는 symmetric, reciprocal 하다는 특징이 있다. 예를 들어 친구관계(서로 친구관계), 또는 협업(collaboration, 방향성trivi.. 2023. 10. 26. [CS246] RecSys (4) - Latent Factor Models (Matrix Factorization, MF, UV decomposition) 이번 포스팅은 2006년에 넷플릭스 대회를 통해 실제 추천시스템 대회에서 utility matrix의 형태와 평가기준(evaluation criterion)에 대해 살펴본다.그리고 넷플릭스 utitlity matrix를 채우는 방법으로 UV decomposition을 소개하고, 이를 이용한 모델을 설명한다. ※ Matrix Factorization (MF)은 종종 UV decomposition 등으로 불린다.※ MF로 얻는 두 행렬은 Google에서는 U와 V, wiki에서는 H와 W로 표기한다. 여기서는 CS246의 표기(P와 Q)를 따른다.The Netflix PrizeTraining data100M개의 ratings (1-5의 평점을 가짐)user 수: 480Kmovie 수: 18KTest data.. 2023. 10. 24. [CS224w, 2018] Network Properties and Real World Key properties주로 4가지 성질에 대해서 알아보자. degree distribution($P(k)$), path length($h$), clustering coefficient($C$), connected components($s$)에 대해 살펴보자. 1. Degree distribution노드 차수(degree)의 분포를 $P(k)$로 부른다. 이때 $k$는 degree를 의미한다. 전체 노드 개수를 $N$, 노드 차수가 $k$인 노드의 개수를 $N_k$라 하면 $P(k) = \cfrac{N_k}{N}$ 이다.2. Paths in a graphpath는 노드의 수열(sequence of nodes)을 나타낸다. 이때 차례로 나타나는 노드는 이전 노드와 연결되어있어야 한다.path는 self .. 2023. 10. 22. 이전 1 2 3 4 5 6 7 ··· 15 다음 728x90 반응형