摘要: 前言:通常对于大文件读取及处理,不可能直接加载到内存中,因此进行分批次小量读取及处理I、第一种读取方式一行一行的读取,速度较慢def read_line(path): with open(path, 'r', encoding='utf-8') as fout: line = fout.readline() while line: line ... 阅读全文
posted @ 2019-12-17 23:14 沉默的赌徒 阅读(1940) 评论(0) 推荐(1) 编辑
摘要: 官方文档:https://docs.mongodb.com/1、聚集后进行统计,使用两个groupdb.souhu_three.aggregate([ {$group:{_id:"$userId"}}, {$group:{_id:null,count:{$sum:1}}}])2、根据每个单独进行统计(使用allowDiskUse是因为可能内存溢出)db.souhu_three.aggr... 阅读全文
posted @ 2019-12-17 16:03 沉默的赌徒 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 1、bug:Exceeded memory limit for $group, but didn't allow external sort. Pass allowDiskUse:true to opt in.原因及解决办法:主要是MongoDB单次查询内存限制,因此在option中解除限制{ allowDiskUse: true }实例:db.souhu_three.aggregate( [ {... 阅读全文
posted @ 2019-12-17 15:44 沉默的赌徒 阅读(666) 评论(0) 推荐(0) 编辑
摘要: 问题,本人一直出现各种各样的问题,参照网上的均没有效果,而且博客园官方引导设置very old,很多东西都已经不一样了,将本人遇到的问题贴在下面 经过不断用email与博客园沟通,最终解决。I、在博客园后台进行设置博客园设置后台有新版和旧版,建议均进行勾选新版:https://i-beta.cnblogs.com/posts/edit旧版:https://i1.cnblogs.com/Config... 阅读全文
posted @ 2019-12-17 11:20 沉默的赌徒 阅读(307) 评论(0) 推荐(0) 编辑