MongoDB+Hadoop構(gòu)建MapReduce運(yùn)算系統(tǒng)
Hadoop 是一個(gè)開源的分布式的并行計(jì)算系統(tǒng),其Map/Reduce 運(yùn)算功能被廣泛地應(yīng)用在數(shù)據(jù)分析領(lǐng)域。mongo-hadoop 是一個(gè)將MongoDB 與Hadoop 相整合的開源工具。工具作者是10gen 的工程師,本文即是其作者對(duì)這一工具的思想及使用的介紹。
項(xiàng)目地址:https://github.com/mongodb/mongo-hadoop
文中關(guān)于為何不直接利用MongoDB的Map/Reduce 功能的回答:
必須Javascript語法(個(gè)人認(rèn)為這個(gè)無所謂,JS通俗易懂)
Javascript引擎的實(shí)現(xiàn)導(dǎo)致一個(gè)實(shí)例只能運(yùn)行一個(gè)Map/Reduce線程
除非使用Sharding,否則MongoDB無法進(jìn)行真正的并行Map/Reduce運(yùn)算
下面是完整slide:
The elephant in the room mongo db + hadoop |