MapReduce
MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。
对科班出生的程序员来说,最好的例子莫过于归并排序的例子,没错,归并排序流程就可以看作是一个MapReduce,只是我们在学校写过的归并排序程序可能还没有涉及到并行计算罢了。
上面是MapReduce的理论部分,下面说实际的应用,下面以MongoDB MapReduce为例说明。
下面是MongoDB官方的一个例子:
> db.things.insert( { _id : 1, tags : ['dog', 'cat'] } );
> db.things.insert( { _id : 2, tags : ['cat'] } );
> db.things.insert( { _id : 3, tags : ['mouse', 'cat', 'dog'] } );
> db.things.insert( { _id : 4, tags : [] } );
> // map function
> m = function(){
... this.tags.forEach(
... function(z){
... emit( z , { count : 1 } );
... }
... );
...};
> // reduce function
> r = function( key , values ){
... var total = 0;
... for ( var i=0; i<values.length; i++ )
... total += values[i].count;
... return { count : total };
...};
> res = db.things.mapReduce(m, r, { out : "myoutput" } );
> res
{
"result" : "myoutput",
"timeMillis" : 12,
"counts" : {
"input" : 4,
"emit" : 6,
"output" : 3
},
"ok" : 1,
}
> db.myoutput.find()
{"_id" : "cat" , "value" : {"count" : 3}}
{"_id" : "dog" , "value" : {"count" : 2}}
{"_id" : "mouse" , "value" : {"count" : 1}}
> db.myoutput.drop()
例子很简单,计算一个标签系统中每个标签出现的次数。
这里面,除了emit函数之外,所有都是标准的js语法,当然你也可以使用你所知道的所有标准js函数。而这个emit函数是非常重要的,他的作用是将一条数据放入数据分组集合,这个分组是以emit的第一个参数为key的。你可以这样理解,当你在所有需要计算的行执行完了map函数,你就得到了一组key-values对。基本key是emit中的key,values是每次emit函数的第二个参数组成的集合。
现在我们的任务就是将这一个key-values变在key-value,也就是把这一个集合变成一个单一的值。这个操作就是Reduce。
好像这里和我们前面的理论是完全一样的,其实不然。当我们的key-values中的values集合过大,会被再切分成很多个小的key-values块,然后分别执行Reduce函数,再将多个块的结果组合成一个新的集合,作为Reduce函数的第二个参数,继续Reducer操作。可以预见,如果我们初始的values非常大,可能还会对第一次分块计算后组成的集合再次Reduce。这就类似于多阶的归并排序了。具体会有多少重,就看数据量了。
上面这一内部机制,我们不必非常了解,但我们必须了解这一机制会要求我们遵守的原则,那就是当我们书写Map函数时,emit的第二个参数形式是我们的Reduce函数的第二个参数,而Reduce函数的返回值,可能会作为新的输入参数再次执行Reduce操作,所以Reduce函数的返回值也需要和Reduce函数的第二个参数结构一致。
作为结束,下面照本宣科说一下MongoDB MapReduce调用参数和返回结果。
参数表如下:
db.runCommand(
{ mapreduce :
,
map :
,
reduce :
[, query : ]
[, sort : ]
[, limit : ]
[, out : ]
[, keeptemp:
]
[, finalize : ]
[, scope : ]
[, verbose : true]
}
);
mapreduce:指定要进行mapreduce处理的collection
map:map函数
reduce:reduce函数
query:一个筛选条件,只有满足条件的行才会加入mapreduce集合,而这个筛选过程是先于整个mapreduce流程而执行的
sort:和query结合的sort排序参数,这是唯一可以优化分组机制的地方
limit:同上
out:结果输出的collection的名字,不指定会默认创建一个随机名字的collection
keytemp:true或false,表明结果输出到的collection是否是临时的,如果为true,则会在客户端连接中断后自动删除,如果你用的是MongoDB的mongo客户端连接,那必须exit后才会删除。如果是脚本执行,脚本退出或调用close会自动删除结果collection
finalize:和map,reduce一样是一个函数,它可以在reduce得出一个结果后再对key和value进行一次计算并返回一个最终结果
scope:设置参数值,在这里设置的值在map,reduce,finalize函数中可见
verbose:在执行过程中打印调试信息。
返回结果结构如下:
{ result :
,
counts : {
input : ,
emit : ,
output :
} ,
timeMillis : ,
ok : <1_if_ok>,
[, err : ]
}
result:储存结果的collection的名字
input:满足条件的数据行数
emit:emit调用次数,也就是所有集合中的数据总量
ouput:返回结果条数
timeMillis:执行时间,毫秒为单位
ok:是否成功,成功为1
err:如果失败,这里可以有失败原因,不过从经验上来看,原因比较模糊,作用不大
再加一个例子:
//插入一组数据
for (var i = 0; i < 100; i++) {var u = { name : "user" + i, age : i % 40 + 1, sex : i % 2,atima:new Date().getTime() };db.users.insert(u);}
//map function
m=function(){emit(this.name,{total:this.age,lasttime:this.atima})}
//reduce function,key对应的maxtime最新的时间
r=function(key,values){var sum=0;var maxtime=0;values.forEach(function(v){sum+=v.total;if(v.lasttime>maxtime)maxtime=v.lasttime;}); return {total:sum,lasttime:maxtime};}
//运行,结果输入到result集合里
db.runCommand({mapreduce:'users',map:m,reduce:r,out:'result'});
db.result.find();
分享到:
相关推荐
mongodb mapreduce 实例,该例子主要用来做订单统计的。具体问题请到博客提问。
NULL 博文链接:https://superhuo.iteye.com/blog/1193485
MongoDB MapReduce MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少...
MapReduce应该算是MongoDB操作中比较复杂的了,下面这篇文章主要给大家介绍了关于MongoDB中MapReduce使用的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面随着小编来一起看看吧。
Mongodb是针对大数据量环境下诞生的用于保存大数据量的非关系型数据库,针对大量的数据。接下来通过本文给大家介绍Mongodb中MapReduce实现数据聚合方法详解,感兴趣的朋友一起学习吧
MongoDB的MapReduce.pdf 学习资料 复习资料 教学资源
1.分篇章进行学习,内容控制30分钟内 2.1个月疗程,不要放弃治疗哦 3.图文并茂,有问题请发到邮箱
计算机后端-PHP视频教程. mongodb10 MapReduce 统计栏目下的商品.wmv
一个简单的Mongodb mapreduce的例子
计算机后端-PHP视频教程. mongodb08 导出导入.wmv
MapReduce 是 Google 在 2004 年发布的一个软件框架,用于支持大规模数据的分布式计算。 MongoDB 是一个开源的面向文档的 NoSQL 数据库系统,使用 C++ 编写。
作为一个优秀的编程模型,MapReduce在大数据处理中有很大的优势,而mongodb也支持这一编程模型,本文通过简单的单词计数示例论述在mongodb中如何使用MapReduce
主要介绍了MongoDB学习笔记之MapReduce使用示例,本文直接给出实例代码,需要的朋友可以参考下
MongoDB五分钟教程:MongoDB Shell入门 基于MongoDB进行分布式数据存储的步骤 MongoDB分布式存储的MapReduce并行查询 实例:MongoDB与Tomcat的结合更便捷
#资源达人分享计划#
5.聚合运算,支持Group,Aggregation, MapReduce 的统计和集合 6.全文检索和地理位置信息检索使用 7.主从复制搭建 8.sharding分片集群 9.数据库监控和profiling使用 通过这些学习对Mongodb全方位的学习和理解,适应...
第1章 初识MongoDB.pptx 第2章 MongoDB的结构.pptx 第3章 MongoDB基本操作.pptx 第4章 数据外部管理工具....第10章 MongoDB的分布式运算模型MapReduce.pptx 第11章 MongoDB存储原理.pptx 第12章 MongoDB副本集部署.pptx