91vincent - 博客园

2018年5月

摘要：聚合分析的内部原理是什么？？？？aggs，term，metric avg max，执行一个聚合操作的时候，内部原理是怎样的呢？用了什么样的数据结构去执行聚合？是不是用的倒排索引？搜索+聚合，写个示例GET /test_index/test_type/_search {... 阅读全文

posted @ 2018-05-28 11:15 91vincent 阅读(253) 评论(0) 推荐(0) 编辑

摘要：需求有一个网站，记录下了每次请求的访问的耗时，需要统计tp50，tp90，tp99tp50：50%的请求的耗时最长在多长时间tp90：90%的请求的耗时最长在多长时间tp99：99%的请求的耗时最长在多长时间设置索引，准备数据PUT /website{ "map... 阅读全文

posted @ 2018-05-28 10:49 91vincent 阅读(228) 评论(0) 推荐(0) 编辑

摘要： 1、cardinality语法es，去重，cartinality metric，对每个bucket中的指定的field进行去重，取去重后的count，类似于count(distcint)cardinality，count(distinct)，5%的错误率，性能在100... 阅读全文

posted @ 2018-05-28 10:25 91vincent 阅读(727) 评论(0) 推荐(0) 编辑

摘要： 1、易并行聚合算法有些聚合分析的算法，是很容易就可以并行的，比如说max有些聚合分析的算法，是不好并行的，比如说，count(distinct)，并不是说，在每个node上，直接就出一些distinct value，就可以的，因为数据可能会很多es会采取近似聚合的方式... 阅读全文

posted @ 2018-05-28 09:56 91vincent 阅读(220) 评论(0) 推荐(0) 编辑

摘要：热更新在上一节《IK分词器配置文件讲解以及自定义词库》自定义词库，每次都是在es的扩展词典中，手动添加新词语，很坑（1）每次添加完，都要重启es才能生效，非常麻烦（2）es是分布式的，可能有数百个节点，你不能每次都一个一个节点上面去修改es不停机，直接我们在外部某个地... 阅读全文

posted @ 2018-05-25 14:51 91vincent 阅读(405) 评论(0) 推荐(0) 编辑

摘要： 1、ik配置文件ik配置文件地址：es/plugins/ik/config目录IKAnalyzer.cfg.xml：用来配置自定义词库main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起quantifier.dic：放了一些单位相... 阅读全文

posted @ 2018-05-25 14:25 91vincent 阅读(417) 评论(0) 推荐(0) 编辑

摘要： 1、在elasticsearch中安装ik中文分词器（1）git clone https://github.com/medcl/elasticsearch-analysis-ik（2）git checkout tags/v5.2.0（3）mvn package（4）将... 阅读全文

posted @ 2018-05-25 14:12 91vincent 阅读(251) 评论(0) 推荐(0) 编辑

摘要：前言之前《lucene的相关度评分TF&IDF算法以及向量空间模型算法》，已经很了解整个es的相关度评分的算法了，算法思想，TF/IDF，vector model，boolean model; 实际的公式，query norm，query coordination，b... 阅读全文

posted @ 2018-05-24 15:06 91vincent 阅读(306) 评论(0) 推荐(0) 编辑

摘要： 1、前缀搜索搜索包含KDKE前缀的articleID GET /forum/article/_search { "query": { "prefix": { "articleID": { "value": "KDKE" } ... 阅读全文

posted @ 2018-05-24 11:20 91vincent 阅读(609) 评论(0) 推荐(0) 编辑

摘要： 1、什么是近似匹配两个句子java is my favourite programming language, and I also think spark is a very good big data system.java spark are very rela... 阅读全文

posted @ 2018-05-22 18:00 91vincent 阅读(202) 评论(0) 推荐(0) 编辑