mongodb的聚合操作

在mongodb中有时候我们需要对数据进行分析操作，比如一些统计操作，这个时候简单的查询操作(find)就搞不定这些需求，因此就需要使用聚合框架(aggregation) 来完成。在mongodb中提供了三种方式来完成聚合操作。aggregation pipeline map-reduce function, and single purpose aggregation methods，本篇文章主要讲解aggregation pipeline（聚合管道）的使用。

Aggregation Pipeline（聚合管道）

MongoDB的聚合框架基于数据处理管道的概念。文档进入一个多级管道，将文档转换为聚合结果。比如文档的投影，过滤，排序，分组，等等。此外，管道阶段还可以使用操作符来执行任务，例如计算平均值或连接字符串等等。

下图为一个简单的聚合例子(此图来自mongodb的官网)

如上图所示：先使用 $match 构建筛选出 status 等于A 的数据，然后使用 $group 构建分组数据，以 cust_id 进行分组，使用 $sum 进行分组的求和操作。

聚合管道的限制

1、文档大小限制

聚合的返回单个文档不可超过16M,但是聚合的过程中单个文档可以超过16M.

2、内存的限制

聚合阶段默认情况下可以使用100M的内存，超过则报错。如果想处理需要超过100M内存的数据，则需要将 allowDiskUse 设置成 true,让其可以写入临时文件。但是在 $graphLookup 阶段，内存还是限制到100M以内，即使设置了 allowDiskUse=true, 在此管道阶段会失效，但是如果以其他的管道阶段还是会生效的。当allowDiskUser=false,内存超出发生异常。

聚合管道阶段

$match	用于过滤数据，用于聚合阶段的输入
$order	用指定的键，对文档进行排序
$limit	用于限制多少个文档作为输入
$skip	跳过多少个文档
$project	投影字段，可以理解为查询多少个字段，类似为 select a,b,c 中的 a,b,c
$group	进行分组操作,其中_id字段用于指定需要分组的字段。
$count	返回这个聚合管道阶段的文档的数量

更多管道阶段，请点击这里。

聚合管道操作，请点击这里

基本语法

db.collection.aggregate( [ { <stage> }, ... ] )

准备数据

db.persons.insertMany([
    {userId : '001',age : 24,salary : 5000,dept : '部门一'},    
    {userId : '002',age : 25,salary : 7000,dept : '部门二'},    
    {userId : '003',age : 23,salary : 8000,dept : '部门一'},    
    {userId : '004',age : 26,salary : 1000,dept : '部门三'},    
    {userId : '005',age : 27,salary : 2000,dept : '部门二'},    
    {userId : '006',age : 22,salary : 7000,dept : '部门一'},    
    {userId : '007',age : 25,salary : 6000,dept : '部门三'},    
    {userId : '008',age : 26,salary : 4000,dept : '部门三'},    
    {userId : '009',age : 28,salary : 9000,dept : '部门二'}
])

1、使用 $project 投影出需要的字段

* 排除 _id 字段

* 返回 age字段

* 产生一个新字段 newAge,它的值为原age字段的值加 1

db.persons.aggregate([
    {$project : {_id : 0,age : 1,newAge : {$add : ['$age',1]}}}    
])

2、使用 $match 进行数据的过滤

和普通的查询条件是一样的。

db.persons.aggregate([
    {$match : {age : {$gt : 22}} }
])

3、使用 $sort 进行排序

db.persons.aggregate([
    {$match : {age : {$gt : 22}} },
    {$sort : {age : 1}}
])

4、使用 $limit 和 $skip 进行限制数据和过滤数据

db.persons.aggregate([
    {$match : {age : {$gt : 22}} },
    {$sort : {age : -1}},
    {$limit : 6},
    {$skip : 3}
])

5、使用 $group 进行分组操作

db.persons.aggregate([
    {$group : {_id : "$dept",count : {$sum : 1}}} 
]);

有了以上的简单知识，我们完成一个简单的练习。

需求: 获取6个年龄大于22周岁的用户，其中如果薪水如果小于1000，直接将薪水上调到4000，前面一步做好后，需要排出年龄最大的一个，求出每个部门，相同年龄的员工的平均薪水，并得到薪水最高的三个人。

思路：1、投影出年龄(age),部分(dept),薪水(salary)字段

2、查出年龄大于22周岁的员工

3、以年龄倒叙进行排序

4、限制返回7条数据，并跳过一条数据

5、以部门年龄进行分组，并求出平均分

6、以上一步的平均分在进行倒叙排序

7、然后再返回3条数据

代码如下

db.persons.aggregate([
    { $project : {age : 1,dept : 1,oldSalary : "$salary",salary : {
        $switch : {
            branches : [
                { case : { $lte : ["$salary",1000] }, then : {$sum : ["$salary",4000]}}
            ],
            default : '$salary'
        }
    }} },
    { $match : {age : {$gt : 22}} },
    { $sort : {age : -1}},
    { $limit : 7},
    { $skip : 1 },
    { $group : { _id : {dept : "$dept",age : "$age"},pers : {$sum : 1} , deptAvgSalary : { $avg : "$salary"} } },
    { $sort : {deptAvgSalary : -1}},
    { $limit : 3}
]);

运行效果

posted @ 2018-04-17 23:32 huan1993 阅读(77) 评论(0) 编辑收藏举报

刷新页面返回顶部

huan1993的技术分享

mongodb的聚合操作

Aggregation Pipeline（聚合管道）

聚合管道的限制

1、文档大小限制

2、内存的限制

聚合管道阶段

聚合管道操作，请点击这里

基本语法

有了以上的简单知识，我们完成一个简单的练习。

公告

huan1993的技术分享

mongodb的聚合操作

Aggregation Pipeline（聚合管道）

聚合管道的限制

1、文档大小限制

2、内存的限制

聚合管道阶段

聚合管道操作，请点击 这里

基本语法

有了以上的简单知识，我们完成一个简单的练习。

公告

聚合管道操作，请点击这里