bonelee - 博客园

2017年2月16日

wiredtiger存储引擎介绍——本质就是LSM，当然里面也可以包含btree和列存储

摘要：见：http://www.slideshare.net/profyclub_ru/4-understanding-and-tuning-wired-tiger-the-new-high-performance-database-engine-in-mongodb-henrik-ingo-mongod 阅读全文

posted @ 2017-02-16 19:15 bonelee 阅读(876) 评论(0) 推荐(0)

Druid：一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统

摘要：转自：http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时，Druid仍能够保持100%正常阅读全文

posted @ 2017-02-16 09:45 bonelee 阅读(1556) 评论(0) 推荐(0)

2017年2月15日

ES doc_values的来源，field data——就是doc->terms的正向索引啊，不过它是在查询阶段通过读取倒排索引loading segments放在内存而得到的？

摘要： Support in the Wild: My Biggest Elasticsearch Problem at Scale Java Heap Pressure Support in the Wild: My Biggest Elasticsearch Problem at Scale Java 阅读全文

posted @ 2017-02-15 15:38 bonelee 阅读(674) 评论(0) 推荐(0)

ES doc_values介绍2——本质是field value的列存储，做聚合分析用，ES默认开启，会占用存储空间

摘要：一、doc_values介绍 doc values是一个我们再三重复的重要话题了，你是否意识到一些东西呢？搜索时，我们需要一个“词”到“文档”列表的映射排序时，我们需要一个“文档”到“词“列表的映射，换句话说，我们需要一个在倒排索引的基础上建立的“正排索引” 这里的“正排索引”结构通常在其他系统阅读全文

posted @ 2017-02-15 15:12 bonelee 阅读(6316) 评论(0) 推荐(0)

列存储压缩技巧，除公共除数或者同时减去最小数，字符串压缩的话，直接去重后用数字ID压缩

摘要： Column-store compression At a high level, doc values are essentially a serialized column-store. As we discussed in the last section, column-stores exc 阅读全文

posted @ 2017-02-15 15:01 bonelee 阅读(444) 评论(0) 推荐(0)

ES doc_values介绍——本质是field value的列存储，做聚合分析用，ES默认开启，会占用存储空间（列存储压缩技巧，除公共除数或者同时减去最小数，字符串压缩的话，直接去重后用数字ID压缩）

摘要： doc_values doc_values Doc values are the on-disk data structure, built at document index time, which makes this data access pattern possible. They sto 阅读全文

posted @ 2017-02-15 15:00 bonelee 阅读(2402) 评论(0) 推荐(0)

How to reduce Index size on disk?减少ES索引大小的一些小手段

摘要： ES索引文件瘦身总结如下：原始数据：（1）学习splunk，原始data存big string（2）原始文件还可以再度压缩倒排索引：（1）去掉不必要的倒排索引信息：例如文件位置倒排、_source和field store选择之一（2）合并倒排文件，去掉一些冗余的小文件（3）原始数据big stri 阅读全文

posted @ 2017-02-15 14:31 bonelee 阅读(1057) 评论(0) 推荐(0)

ES查看segment大小

摘要：摘自：http://www.aboutyun.com/thread-17078-1-1.html Segment MemorySegment不是file吗？segment memory又是什么？前面提到过，一个segment是一个完备的lucene倒排索引，而倒排索引是通过词典 (Term Dict 阅读全文

posted @ 2017-02-15 14:19 bonelee 阅读(8165) 评论(0) 推荐(0)

Twitter的流处理器系统Heron——升级的storm，可以利用mesos来进行资源调度

摘要： 2011年，Twitter发布了开源的分布式流计算系统Storm。四年后，随着用户数量的急剧增加，Twitter每天要处理的事件已经增加到十亿以上。Storm系统应对如此庞大而复杂多样的流数据变得十分困难。为了解决该问题，Twitter公司近期开发了一套全新的流处理系统——Heron。近日，Twit 阅读全文

posted @ 2017-02-15 14:07 bonelee 阅读(584) 评论(0) 推荐(0)

揭秘FaceBook Puma演变及发展——FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上，这个根能立稳吗？hive又是sql的Map reduce任务拆分，底层还是依赖hbase和hdfs存储

摘要：在12月2日下午的“大数据技术与应用”分论坛的第一场演讲中，来自全球知名互联网公司——FaceBook公司的软件工程师、研发经理邵铮就带来了一颗重磅炸弹，他将为我们讲解FaceBook公司的实时数据处理分析平台的核心——Puma的演进以及未来的发展思路。 FaceBook公司自成立以来发展就非常迅猛阅读全文

posted @ 2017-02-15 12:34 bonelee 阅读(1018) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告