随笔分类 - 数据处理
mongodb...
Elasticsearch使用备忘
摘要:最近我们需要对大约2T(6.5亿条)日志做全文检索,Elasticsearch看起来很火爆,又有很多产品使用(Facebook、github、stackoverflow),值得一试。以下是一些基础知识笔记。 Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful的搜索引擎
阅读全文
MongoDB使用小结:一些常用操作分享
摘要:本文整理了一年多以来我常用的MongoDB操作,涉及mongo-shell、pymongo,既有运维层面也有应用层面,内容有浅有深,这也就是我从零到熟练的历程。 MongoDB的使用之前也分享过一篇,稍微高阶点:见这里:《MongoDB使用小结》 1、shell登陆和显示 假设在本机上有一个端口为1
阅读全文
Flume使用小结
摘要:本文介绍初次使用Flume传输数据到MongoDB的过程,内容涉及环境部署和注意事项。1 环境搭建 需要jdk、flume-ng、mongodbjavadriver、flume-ng-mongodb-sink(1)jdk下载地址:http://www.oracle.com/technetwor...
阅读全文
MongoDB搭建Replica Set Shard Cluster步骤
摘要:本文记录从头搭建一个MongoDB 副本集分片集群的过程。 我们要创建一个这样子的分布式集群:有两个shard,每个shard都是一个replica set,各有两个副本(实际产品应用中还应加上一个仅用于投票aribiter);有三个config server;有一个mongos。步骤如下(前提:你
阅读全文
MongoDB使用小结:一些不常见的经验分享
摘要:最近一年忙碌于数据处理相关的工作,跟MongoDB打交道极多,以下为实践过程中的Q&A,后续会不定期更新补充。 另有《MongoDB使用小结:一些常用操作分享》,注:本文完成时MongoDB的最新版本为MongoDB 2.6。 1、count统计结果错误 这是由于分布式集群正在迁移数据,它导致cou
阅读全文