2017 年 2月 15 日随笔档案 - bonelee

2017年2月15日

ES doc_values的来源，field data——就是doc->terms的正向索引啊，不过它是在查询阶段通过读取倒排索引loading segments放在内存而得到的？

摘要： Support in the Wild: My Biggest Elasticsearch Problem at Scale Java Heap Pressure Support in the Wild: My Biggest Elasticsearch Problem at Scale Java 阅读全文

posted @ 2017-02-15 15:38 bonelee 阅读(656) 评论(0) 推荐(0) 编辑

ES doc_values介绍2——本质是field value的列存储，做聚合分析用，ES默认开启，会占用存储空间

摘要：一、doc_values介绍 doc values是一个我们再三重复的重要话题了，你是否意识到一些东西呢？搜索时，我们需要一个“词”到“文档”列表的映射排序时，我们需要一个“文档”到“词“列表的映射，换句话说，我们需要一个在倒排索引的基础上建立的“正排索引” 这里的“正排索引”结构通常在其他系统阅读全文

posted @ 2017-02-15 15:12 bonelee 阅读(6106) 评论(0) 推荐(0) 编辑

列存储压缩技巧，除公共除数或者同时减去最小数，字符串压缩的话，直接去重后用数字ID压缩

摘要： Column-store compression At a high level, doc values are essentially a serialized column-store. As we discussed in the last section, column-stores exc 阅读全文

posted @ 2017-02-15 15:01 bonelee 阅读(429) 评论(0) 推荐(0) 编辑

ES doc_values介绍——本质是field value的列存储，做聚合分析用，ES默认开启，会占用存储空间（列存储压缩技巧，除公共除数或者同时减去最小数，字符串压缩的话，直接去重后用数字ID压缩）

摘要： doc_values doc_values Doc values are the on-disk data structure, built at document index time, which makes this data access pattern possible. They sto 阅读全文

posted @ 2017-02-15 15:00 bonelee 阅读(2371) 评论(0) 推荐(0) 编辑

How to reduce Index size on disk?减少ES索引大小的一些小手段

摘要： ES索引文件瘦身总结如下：原始数据：（1）学习splunk，原始data存big string（2）原始文件还可以再度压缩倒排索引：（1）去掉不必要的倒排索引信息：例如文件位置倒排、_source和field store选择之一（2）合并倒排文件，去掉一些冗余的小文件（3）原始数据big stri 阅读全文

posted @ 2017-02-15 14:31 bonelee 阅读(1016) 评论(0) 推荐(0) 编辑

ES查看segment大小

摘要：摘自：http://www.aboutyun.com/thread-17078-1-1.html Segment MemorySegment不是file吗？segment memory又是什么？前面提到过，一个segment是一个完备的lucene倒排索引，而倒排索引是通过词典 (Term Dict 阅读全文

posted @ 2017-02-15 14:19 bonelee 阅读(8112) 评论(0) 推荐(0) 编辑

Twitter的流处理器系统Heron——升级的storm，可以利用mesos来进行资源调度

摘要： 2011年，Twitter发布了开源的分布式流计算系统Storm。四年后，随着用户数量的急剧增加，Twitter每天要处理的事件已经增加到十亿以上。Storm系统应对如此庞大而复杂多样的流数据变得十分困难。为了解决该问题，Twitter公司近期开发了一套全新的流处理系统——Heron。近日，Twit 阅读全文

posted @ 2017-02-15 14:07 bonelee 阅读(566) 评论(0) 推荐(0) 编辑

揭秘FaceBook Puma演变及发展——FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上，这个根能立稳吗？hive又是sql的Map reduce任务拆分，底层还是依赖hbase和hdfs存储

摘要：在12月2日下午的“大数据技术与应用”分论坛的第一场演讲中，来自全球知名互联网公司——FaceBook公司的软件工程师、研发经理邵铮就带来了一颗重磅炸弹，他将为我们讲解FaceBook公司的实时数据处理分析平台的核心——Puma的演进以及未来的发展思路。 FaceBook公司自成立以来发展就非常迅猛阅读全文

posted @ 2017-02-15 12:34 bonelee 阅读(988) 评论(0) 推荐(0) 编辑

Facebook的实时流处理技术——Scuba是Facebook的一个非常快速、分布式的内存数据库，用于实时分析和查询

摘要： Scuba，Facebook的一个非常快速、分布式的内存数据库，用于实时分析和查询。是Facebook的回归分析代码、错误报告监控、广告收入监控和性能调试的背后主力。 Facebook的实时流处理技术随着云计算大数据的发展，有越来越多的场景需要借助于实时数据处理技术，为此有很多公司开发了自己的实时阅读全文

posted @ 2017-02-15 12:29 bonelee 阅读(3205) 评论(0) 推荐(0) 编辑

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告