摘要: Luke 5 发布,可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日 这是一个主要版本,该版本支持 Lucene 5.2.0。它支持 elasticsearch 1.6.0(Lucene的4.10.4)已解决的问题:#20增加支持重建索引并不会存储领域,不暴露位置的字 阅读全文
posted @ 2017-02-23 15:07 bonelee 阅读(2762) 评论(0) 推荐(0) 编辑
摘要: Apache Flink是什么 Flink是一款新的大数据处理引擎,目标是统一不同来源的数据处理。这个目标看起来和Spark和类似。没错,Flink也在尝试解决 Spark在解决的问题。这两套系统都在尝试建立一个统一的平台可以运行批量,流式,交互式,图处理,机器学习等应用。所以,Flink和Spar 阅读全文
posted @ 2017-02-23 14:57 bonelee 阅读(5485) 评论(0) 推荐(0) 编辑
摘要: Cattell [6] maintains a great summary about existing Scalable SQL and NoSQL data stores. Hu [18] contributed another great summary for streaming datab 阅读全文
posted @ 2017-02-23 14:31 bonelee 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 分布式计算 分布式聚合如何做得快 Elasticsearch/Lucene从最底层就支持数据分片,查询的时候可以自动把不同分片的查询结果合并起来。Elasticsearch的document都有一个uid,默认策略是按照uid 的 hash把文档进行分片。 一个Elasticsearch Index 阅读全文
posted @ 2017-02-23 11:42 bonelee 阅读(1817) 评论(0) 推荐(0) 编辑
摘要: 加载 如何利用索引和主存储,是一种两难的选择。 选择不使用索引,只使用主存储:除非查询的字段就是主存储的排序字段,否则就需要顺序扫描整个主存储。 选择使用索引,然后用找到的row id去主存储加载数据:这样会导致很多碎片化的随机读操作。(ES检索出来的一堆ID,然后根据这些ID去数据库里取东西就是碎 阅读全文
posted @ 2017-02-23 11:37 bonelee 阅读(1636) 评论(0) 推荐(0) 编辑
摘要: 一般人们谈论时间序列数据库的时候指代的就是这一类存储。按照底层技术不同可以划分为三类。 直接基于文件的简单存储:RRD Tool,Graphite Whisper。这类工具附属于监控告警工具,底层没有一个正规的数据库引擎。只是简单的有一个二进制的文件结构。 基于K/V数据库构建:opentsdb(基 阅读全文
posted @ 2017-02-23 11:12 bonelee 阅读(4999) 评论(1) 推荐(0) 编辑
摘要: 在默认情况下,开启_all和_source 这样索引下来,占用空间很大. 根据我们单位的情况,我觉得可以将需要的字段保存在_all中,然后使用IK分词以备查询,其余的字段,则不存储. 并且禁用_source字段.(也可以通过_source includes或者excludes 指定或者排除字段) { 阅读全文
posted @ 2017-02-23 11:02 bonelee 阅读(4361) 评论(0) 推荐(0) 编辑
摘要: Elasticsearch: Five Things I was Doing Wrong Update: Also check out my series on scaling Elasticsearch. I’ve been working with Elasticsearch off and o 阅读全文
posted @ 2017-02-23 10:50 bonelee 阅读(251) 评论(0) 推荐(0) 编辑
摘要: From Elasticsearch's website: The _source field contains the original JSON document body that was passed at index time. The _source field itself is no 阅读全文
posted @ 2017-02-23 10:38 bonelee 阅读(1308) 评论(0) 推荐(0) 编辑
摘要: A sample network anomaly detection project Suppose we wanted to detect network anomalies with the understanding that an anomaly might point to hardwar 阅读全文
posted @ 2017-02-23 09:56 bonelee 阅读(1429) 评论(0) 推荐(0) 编辑
摘要: 机器学习起源于神经网络,而深度学习是机器学习的一个快速发展的子领域。最近的一些算法的进步和GPU并行计算的使用,使得基于深度学习的算法可以在围棋和其他的一些实际应用里取得很好的成绩。 时尚产业是深度学习的目标领域之一。闪购网站Gilt就一直在使用深度学习来进行产品推荐和服装的属性分类。裙子样式是通过 阅读全文
posted @ 2017-02-23 09:24 bonelee 阅读(1116) 评论(0) 推荐(0) 编辑
摘要: 2017年2月15日,在加利福尼亚州的开源领袖峰会上,由Linux基金会执行董事Jim Zemlin进行的一次采访中,Torvalds讨论了他如何管理Linux内核的开发以及他对工作的态度。 Linus Torvalds认为,科技行业对创新的颂扬是一种自鸣得意,沾沾自喜,以自我为中心。 他更直白地表 阅读全文
posted @ 2017-02-23 09:17 bonelee 阅读(347) 评论(0) 推荐(0) 编辑