본문 바로가기

728x90

MapReduce3

[CS246] Frequent Itemsets: SON, Toivonen Algorithm Recap: Frequent Itemsets & Intro.A-Priori, PCY, Multistage, Multihash 알고리즘을 이용하면 결국 크기가 $k$인 frequent itemset을 얻기 위해서 $k$번 반복해야한다. 물론 일부는 frequent pair에 특화되어있지만 결국 $k$번 반복하는 것은 동일하다. 이번 포스팅에서는 pass 수가 2번 이하인 알고리즘을 알아보자. 크게 3가지 방법이 알려져있다.Random sampling (random sampling은 대규모 데이터셋에서 효과적이다. 무시하지 말기)ToivonenSON (Savasere, Omiecinski, Navathe) Random Samplingmarket basket에 대하여 랜덤 샘플링(무작위 표본 추출법)을 적용하.. 2023. 9. 15.

[CS246] Spark: Extends MapReduce Recap: MapReduce크기가 매우 크고 (내용) 업데이트가 거의 없는 파일에 대하여 MapReduce는 효과적이다.user는 Map과 Reduce 함수만 작성하고, 시스템은 자동으로 Map/Reduce Worker에 할당하여 처리한다.Map의 결과로 중간 파일(intermediate files)에 저장하고 이는 local file system에 존재한다. 이런 중간파일을 사용하면 main memory를 거의 사용하지 않는다는 장점이 있지만 disk overhead가 존재한다는 단점이 있다. Node Failure도 다음과 같은 경우에 해결할 수 있다.Master fail: 전체 MapReduce를 다시 시작Map worker fail: 해당 worker에 할당된 모든 map task를 다시 시작(.. 2023. 9. 9.

[CS246] MapReduce Large-scale Computingsupercomputer를 운용하는것은 너무 비용이 크고, 심지어 데이터 크기(scaling)를 크게 할 수 없다.대신, 하드웨어를 연결하여 분산처리를 구현한다. (collection of commodity hardware)Challengesdistribute computation?distributed programs?machines fail네트워크간 데이터 복사(copy)는 시간이 걸린다. local에 연산 결과를 저장하고, failure에 대비하여 여러번 저장한다.Spark/Hadoop은 이런 문제를 해결할 수 있다.Storage Infrastructure: Google File System (GFS), Hadoop Distributed File System (H.. 2023. 9. 8.

이전 1 다음

728x90

티스토리툴바