728x90 반응형 PageRank4 [CS246] TrustRank vs. LinkFarms TrustRank: Bias Random Walk to trustworthy pagesLink Farms: Create link to boost PageRank of particular pagespammer들은 구글의 PageRank를 역이용하여 특정 페이지의 pagerank score를 극대화시켜 페이지 상단에 노출시키려 한다. spammer의 시각에서 웹페이지는 3개의 종류가 있다.Owned pages: spammer가 소유권을 가지고 있어서 무엇이든 할 수 있는 페이지. (completely control)Accessible pages: 소유권은 없지만, 댓글 등으로 자신의 링크를 post할 수 있는 페이지. 블로그 댓글, 뉴스 댓글 또는 위키피디아의 링크 등이 있다.Inaccessible page.. 2023. 11. 6. [CS246] Topic-Specific PageRank Topic-Specific PageRank: Measure importance within a topicMotivation사용자가 웹 서핑을 할때는 페이지의 중요도(importance) 뿐만 아니라 사용자의 주제(topic)도 반영해야 한다.standard PageRank에서는 모든 페이지에 랜덤하게 teloport하지만, topic-specific한 주제들에서만 연관검색이 되도록 teleport set $S$를 이용한다. Matrix Formulation\[ A_{ij} = \begin{cases} \beta M_{ij} + (1-\beta) / |S| & \text{if } i \in S \\ \beta M_{ij} & \text{otherwise} \end{cases} \] Example: Topi.. 2023. 11. 5. [CS246] PageRank PageRank: Ranking Nodes on the GraphWeb as a Directed GraphWeb 데이터는 방향그래프로 나타낼 수 있다. 노드는 webpage, edge는 hyperlink로 대응하여 생각할 수 있다.그래프 용어가 나오므로 익숙하지 않다면 여기를 참고해도 좋다.https://trivia-starage.tistory.com/213 [CS224w, 2018] Network RepresentationDirected & Undirected 위 그림의 왼쪽 빨간색 그래프는 무방향 그래프(undirected graph)이다. link는 symmetric, reciprocal 하다는 특징이 있다. 예를 들어 친구관계(서로 친구관계), 또는 협업(collaboration, 방향성trivi.. 2023. 10. 26. [CS246] MapReduce Large-scale Computingsupercomputer를 운용하는것은 너무 비용이 크고, 심지어 데이터 크기(scaling)를 크게 할 수 없다.대신, 하드웨어를 연결하여 분산처리를 구현한다. (collection of commodity hardware)Challengesdistribute computation?distributed programs?machines fail네트워크간 데이터 복사(copy)는 시간이 걸린다. local에 연산 결과를 저장하고, failure에 대비하여 여러번 저장한다.Spark/Hadoop은 이런 문제를 해결할 수 있다.Storage Infrastructure: Google File System (GFS), Hadoop Distributed File System (H.. 2023. 9. 8. 이전 1 다음 728x90 반응형