본문 바로가기
728x90
반응형

스터디/데이터사이언스88

[CS246] PCY, Multistage, Multihash Algorithm Recap: A-PrioriA-Priori 알고리즘은 2-pass 알고리즘이다. pass1에서는 아이템을 스캔하여 개수를 저장하고, pass2에서 candidate frequent pairs ($C_2$)를 찾는다. 각 $C_k$로부터 truly frequent itemsets $L_k$를 찾는 과정을 반복한다.이렇게 크기가 $k$인 frequent itemsets $L_k$를 통해 association rule을 찾을 수 있다. 그러나 $C_2$ 역시 너무 커서 main memory에 들어가지 않으면? 이 문제를 해결하는 알고리즘이 PCY, multistage, multihash 이다. PCY AlgorithmA-Priori의 pass1에서 사용되지 않는 main-memory가 너무 많다. 이렇게 사용.. 2023. 9. 14.
[CS246] A-Priori Algorithm: Finding Frequent Itemsets Recap: Frequent Itemsets Mining and Association Rulefrequent itemset, association rule에 대해 이전 포스팅을 참고한다. (frequent itemset이 주어졌을 때, association rule을 만드는 방법이다.) https://trivia-starage.tistory.com/181 [CS26] Frequent Itemsets Mining & Association RulesMarket-Basket Model 우리는 association rule을 찾고 싶다. Amazon과 같은 곳에서 어떤 사람이 $\{ x,y,z \}$를 샀다면, $\{ v,w \}$ 도 사는 경향을 찾고 싶을 것이다. 위 그림을 예시로 할 때, 2개의 rule을.. 2023. 9. 12.
[CS246] Frequent Itemsets Mining & Association Rules Market-Basket Model우리는 association rule을 찾고 싶다. Amazon과 같은 곳에서 어떤 사람이 $\{ x,y,z \}$를 샀다면, $\{ v,w \}$ 도 사는 경향을 찾고 싶을 것이다. 위 그림을 예시로 할 때, 2개의 rule을 찾을 수 있다. {milk} -> {coke}, {diaper, milk} -> {beer}Applications item과 basket은 반드시 상품과 바구니일 필요가 없다. 추상화된 데이터 형태라고 생각하면 다양한 응용이 가능하다. Supermarketitems=상품, basket=상품 집합 Topic discoveryitems=단어(word), basket=문서(document) Plagiarismitem=문서(documents), bask.. 2023. 9. 11.
[CS246] Spark: Extends MapReduce Recap: MapReduce크기가 매우 크고 (내용) 업데이트가 거의 없는 파일에 대하여 MapReduce는 효과적이다.user는 Map과 Reduce 함수만 작성하고, 시스템은 자동으로 Map/Reduce Worker에 할당하여 처리한다.Map의 결과로 중간 파일(intermediate files)에 저장하고 이는 local file system에 존재한다. 이런 중간파일을 사용하면 main memory를 거의 사용하지 않는다는 장점이 있지만 disk overhead가 존재한다는 단점이 있다. Node Failure도 다음과 같은 경우에 해결할 수 있다.Master fail: 전체 MapReduce를 다시 시작Map worker fail: 해당 worker에 할당된 모든 map task를 다시 시작(.. 2023. 9. 9.
[CS246] MapReduce Large-scale Computingsupercomputer를 운용하는것은 너무 비용이 크고, 심지어 데이터 크기(scaling)를 크게 할 수 없다.대신, 하드웨어를 연결하여 분산처리를 구현한다. (collection of commodity hardware)Challengesdistribute computation?distributed programs?machines fail네트워크간 데이터 복사(copy)는 시간이 걸린다. local에 연산 결과를 저장하고, failure에 대비하여 여러번 저장한다.Spark/Hadoop은 이런 문제를 해결할 수 있다.Storage Infrastructure: Google File System (GFS), Hadoop Distributed File System (H.. 2023. 9. 8.
[Data Science] K-Nearest Neighbor (k-NN, Lazy Learning, k-최근접 이웃) Lazy vs Eager LearningLazy Learning (e.g. instance-based learining): training data를 저장하고 new data(test data)를 입력받을 때 classifiy한다.Eager Learning: new data(test data)를 입력받기전에 classification model을 먼저 구성한다. 이전에 다룬 decision tree, naive bayes classifier는 eager learning이다. EfficiencyLazy learning은 training time은 짧지만 predicting에서 더 많은 시간이 걸린다. AccuracyLazy Learning은 더 복잡한 결정 공간(more complex decision sp.. 2023. 6. 10.
728x90
반응형