摘要: Support in the Wild: My Biggest Elasticsearch Problem at Scale Java Heap Pressure Support in the Wild: My Biggest Elasticsearch Problem at Scale Java 阅读全文
posted @ 2017-02-15 15:38 bonelee 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 一、doc_values介绍 doc values是一个我们再三重复的重要话题了,你是否意识到一些东西呢? 搜索时,我们需要一个“词”到“文档”列表的映射 排序时,我们需要一个“文档”到“词“列表的映射,换句话说,我们需要一个在倒排索引的基础上建立的“正排索引” 这里的“正排索引”结构通常在其他系统 阅读全文
posted @ 2017-02-15 15:12 bonelee 阅读(6106) 评论(0) 推荐(0) 编辑
摘要: Column-store compression At a high level, doc values are essentially a serialized column-store. As we discussed in the last section, column-stores exc 阅读全文
posted @ 2017-02-15 15:01 bonelee 阅读(429) 评论(0) 推荐(0) 编辑
摘要: doc_values doc_values Doc values are the on-disk data structure, built at document index time, which makes this data access pattern possible. They sto 阅读全文
posted @ 2017-02-15 15:00 bonelee 阅读(2371) 评论(0) 推荐(0) 编辑
摘要: ES索引文件瘦身总结如下: 原始数据:(1)学习splunk,原始data存big string(2)原始文件还可以再度压缩倒排索引:(1)去掉不必要的倒排索引信息:例如文件位置倒排、_source和field store选择之一(2)合并倒排文件,去掉一些冗余的小文件(3)原始数据big stri 阅读全文
posted @ 2017-02-15 14:31 bonelee 阅读(1016) 评论(0) 推荐(0) 编辑
摘要: 摘自:http://www.aboutyun.com/thread-17078-1-1.html Segment MemorySegment不是file吗?segment memory又是什么?前面提到过,一个segment是一个完备的lucene倒排索引,而倒排索引是通过词典 (Term Dict 阅读全文
posted @ 2017-02-15 14:19 bonelee 阅读(8112) 评论(0) 推荐(0) 编辑
摘要: 2011年,Twitter发布了开源的分布式流计算系统Storm。四年后,随着用户数量的急剧增加,Twitter每天要处理的事件已经增加到十亿以上。Storm系统应对如此庞大而复杂多样的流数据变得十分困难。为了解决该问题,Twitter公司近期开发了一套全新的流处理系统——Heron。近日,Twit 阅读全文
posted @ 2017-02-15 14:07 bonelee 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 在12月2日下午的“大数据技术与应用”分论坛的第一场演讲中,来自全球知名互联网公司——FaceBook公司的软件工程师、研发经理邵铮就带来了一颗重磅炸弹,他将为我们讲解FaceBook公司的实时数据处理分析平台的核心——Puma的演进以及未来的发展思路。 FaceBook公司自成立以来发展就非常迅猛 阅读全文
posted @ 2017-02-15 12:34 bonelee 阅读(988) 评论(0) 推荐(0) 编辑
摘要: Scuba,Facebook的一个非常快速、分布式的内存数据库,用于实时分析和查询。是Facebook的回归分析代码、错误报告监控、广告收入监控和性能调试的背后主力。 Facebook的实时流处理技术 随着云计算大数据的发展,有越来越多的场景需要借助于实时数据处理技术,为此有很多公司开发了自己的实时 阅读全文
posted @ 2017-02-15 12:29 bonelee 阅读(3205) 评论(0) 推荐(0) 编辑