摘要:
Luke 5 发布,可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日 这是一个主要版本,该版本支持 Lucene 5.2.0。它支持 elasticsearch 1.6.0(Lucene的4.10.4)已解决的问题:#20增加支持重建索引并不会存储领域,不暴露位置的字 阅读全文
摘要:
Apache Flink是什么 Flink是一款新的大数据处理引擎,目标是统一不同来源的数据处理。这个目标看起来和Spark和类似。没错,Flink也在尝试解决 Spark在解决的问题。这两套系统都在尝试建立一个统一的平台可以运行批量,流式,交互式,图处理,机器学习等应用。所以,Flink和Spar 阅读全文
摘要:
Cattell [6] maintains a great summary about existing Scalable SQL and NoSQL data stores. Hu [18] contributed another great summary for streaming datab 阅读全文
摘要:
分布式计算 分布式聚合如何做得快 Elasticsearch/Lucene从最底层就支持数据分片,查询的时候可以自动把不同分片的查询结果合并起来。Elasticsearch的document都有一个uid,默认策略是按照uid 的 hash把文档进行分片。 一个Elasticsearch Index 阅读全文
摘要:
加载 如何利用索引和主存储,是一种两难的选择。 选择不使用索引,只使用主存储:除非查询的字段就是主存储的排序字段,否则就需要顺序扫描整个主存储。 选择使用索引,然后用找到的row id去主存储加载数据:这样会导致很多碎片化的随机读操作。(ES检索出来的一堆ID,然后根据这些ID去数据库里取东西就是碎 阅读全文
摘要:
一般人们谈论时间序列数据库的时候指代的就是这一类存储。按照底层技术不同可以划分为三类。 直接基于文件的简单存储:RRD Tool,Graphite Whisper。这类工具附属于监控告警工具,底层没有一个正规的数据库引擎。只是简单的有一个二进制的文件结构。 基于K/V数据库构建:opentsdb(基 阅读全文
摘要:
在默认情况下,开启_all和_source 这样索引下来,占用空间很大. 根据我们单位的情况,我觉得可以将需要的字段保存在_all中,然后使用IK分词以备查询,其余的字段,则不存储. 并且禁用_source字段.(也可以通过_source includes或者excludes 指定或者排除字段) { 阅读全文
摘要:
Elasticsearch: Five Things I was Doing Wrong Update: Also check out my series on scaling Elasticsearch. I’ve been working with Elasticsearch off and o 阅读全文
摘要:
From Elasticsearch's website: The _source field contains the original JSON document body that was passed at index time. The _source field itself is no 阅读全文
摘要:
A sample network anomaly detection project Suppose we wanted to detect network anomalies with the understanding that an anomaly might point to hardwar 阅读全文