随笔分类 -  Log

摘要:ElasticSearch 2 (37) 信息聚合系列之内存与延时 摘要 控制内存使用与延时 版本 elasticsearch版本: elasticsearch 2.x 内容 Fielddata 聚合使用一个叫 _fielddata_ 的数据结构(在 "Fielddata" 里简单介绍)。Field 阅读全文
posted @ 2016-03-29 18:25 Richaaaard 阅读(3321) 评论(1) 推荐(1) 编辑
摘要:ElasticSearch 2 (38) 信息聚合系列之结束与思考 摘要 版本 elasticsearch版本: elasticsearch 2.x 内容 本小节涵盖了许多基本理论以及很多深入的技术问题。聚合给 Elasticsearch 带来了难以言喻的强大能力和灵活性。桶与度量的嵌套能力,基数与 阅读全文
posted @ 2016-03-28 15:34 Richaaaard 阅读(512) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (36) 信息聚合系列之显著项 摘要 (SigTerms)聚合与其他聚合都不相同。目前为止我们看到的所有聚合在本质上都是简单的数学计算。将不同这些构造块相互组合在一起,我们可以创建复杂的聚合以及数据报表。 版本 elasticsearch版本: elasticsear 阅读全文
posted @ 2016-03-28 14:32 Richaaaard 阅读(1553) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (35) 信息聚合系列之近似聚合 摘要 如果所有的数据都在一台机器上,那么生活会容易许多,CS201 课商教的经典算法就足够应付这些问题。但如果所有的数据都在一台机器上,那么就不需要像 Elasticsearch 这样的分布式软件了。不过一旦我们开始分布式数据存储,算 阅读全文
posted @ 2016-03-25 14:13 Richaaaard 阅读(6668) 评论(0) 推荐(1) 编辑
摘要:ElasticSearch 2 (34) 信息聚合系列之多值排序 摘要 多值桶( 、`histogram date_histogram`)动态生成很多桶,Elasticsearch 是如何决定这些桶展示给用户的顺序呢? 默认的,桶会根据 降序排列,这是一个好的默认行为,因为通常我们想要找到文档中与查 阅读全文
posted @ 2016-03-24 17:35 Richaaaard 阅读(2215) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (33) 信息聚合系列之聚合过滤 摘要 聚合范围限定还有一个自然的扩展就是过滤。因为聚合是在查询结果范围内操作的,任何可以适用于查询的过滤器也可以应用在聚合上。 版本 elasticsearch版本: elasticsearch 2.x 内容 聚合范围限定还有一个自然 阅读全文
posted @ 2016-03-24 16:15 Richaaaard 阅读(4268) 评论(1) 推荐(0) 编辑
摘要:ElasticSearch 2 (32) 信息聚合系列之范围限定 摘要 到目前为止我们看到的所有聚合的例子都省略了搜索请求,完整的请求就是聚合本身。 聚合与搜索请求同时执行,但是我们需要理解一个新概念:范围。默认情况下,聚合与查询是对同一范围进行操作的,也就是说,聚合是基于我们查询匹配的文档集合进行 阅读全文
posted @ 2016-03-24 14:59 Richaaaard 阅读(697) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (31) 信息聚合系列之时间处理 摘要 如果说搜索是 Elasticsearch 里最受欢迎的功能,那么按时间创建直方图一定排在第二位。为什么需要使用时间直方图? 版本 elasticsearch版本: elasticsearch 2.x 内容 如果说搜索是 Elas 阅读全文
posted @ 2016-03-24 11:14 Richaaaard 阅读(6166) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (30) 信息聚合系列之条形图 摘要 版本 elasticsearch版本: elasticsearch 2.x 内容 聚合还有一个令人激动的特性就是能够十分容易地将它们转换成图表和图形。本章中,我们会关注于各种各样的分析并反复“蹂躏”我们示例中的数据。我们也会展现聚 阅读全文
posted @ 2016-03-24 09:10 Richaaaard 阅读(605) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (29) 信息聚合系列之测试驱动 摘要 我们可以用以下几页定义不同的聚合和它们的语法,但学习聚合的最佳途径就是用实例来说明。一旦我们获得了聚合的思想,以及如何合理地嵌套使用它们,那么语法就变得不那么重要。 版本 elasticsearch版本: elasticsear 阅读全文
posted @ 2016-03-23 18:28 Richaaaard 阅读(562) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (28) 信息聚合系列之高层概念 摘要 和查询表达式(query DSL)一样,聚合也有一种可编辑的语法:可以根据我们的需要混合以及匹配使用独立的功能单元。这也就是说我们只要学习很少的基本概念,就能将它们进行无限组合,从而实现不同的功能。 要掌握聚合,只需要理解下面两 阅读全文
posted @ 2016-03-23 17:03 Richaaaard 阅读(553) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (27) 信息聚合系列之故事开始 摘要 到目前为止,本书都在着重介绍搜索。对于搜索,我们有查询条件以及与查找到与条件匹配的集合。这个过程就和如大海捞针一样。 对于聚合,我们站在远处总观数据。与查看单个文档不同,我们想要对数据集合进行整体的分析和总结。 版本 elast 阅读全文
posted @ 2016-03-23 16:00 Richaaaard 阅读(551) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (26) 语言处理系列之打字或拼写错误 摘要 我们喜欢在对结构化数据(如:日期和价格)做查询时,结果只返回那些能精确匹配的文档。但是,好的全文搜索不应该有这样的限制。相反,我们可以扩大范围,包括更多可能匹配的词语,使用相关度评分将更匹配的文档放置在结果集的顶部。 事实 阅读全文
posted @ 2016-03-16 11:03 Richaaaard 阅读(1515) 评论(0) 推荐(1) 编辑
摘要:ElasticSearch 2 (25) 语言处理系列之同义词 摘要 词干提取有助于通过简化屈折词到它们词根的形式来扩展搜索的范围,而同义词是通过关联概念和想法来扩展搜索范围的。或许没有文档能与查询 “English queen” 相匹配,但是包含 “British monarch” 的文档会很可能 阅读全文
posted @ 2016-03-16 10:57 Richaaaard 阅读(1995) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (24) 语言处理系列之停用词:性能与精度 摘要 在信息检索早期,磁盘和内存相较我们今天的使用只是很小的一部分。将索引空间保持在一个较小的水平是至关重要的,节省每个字节都意味着巨大的性能提升。词干提取(参见 缩减单词至词根形式(Reducing Words to Th 阅读全文
posted @ 2016-03-16 10:51 Richaaaard 阅读(1421) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (23) 语言处理系列之词根提取 摘要 世界上大多数语言都是屈折变化的,意思是词语可以通过变形来表达不同的含义: 数(Number): fox, foxes 时态(Tense): pay, paid, paying 性(Gender): waiter, waitres 阅读全文
posted @ 2016-03-16 10:47 Richaaaard 阅读(1755) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (22) 语言处理系列之标记规范化 摘要 将文本拆解成标记只是工作的一半。为了使这些标记更容易被搜索到,它们需要经过一个规范化的处理过程,以移除相同单词间不重要的差异(比如:大小写)。或许我们还需要移除一些重要的差异,让 、`ésta está déjà vu dej 阅读全文
posted @ 2016-03-16 10:37 Richaaaard 阅读(1012) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (21) 语言处理系列之单词识别 摘要 一个英语单词相对容易识别:因为英语单词是被空格或(某些)标点符号隔开的。但在英语中也有反例: you’re 这个词是一个单词还是两个?那 o’clock 、 cooperate 、 half baked 或 eyewitness 阅读全文
posted @ 2016-03-16 10:26 Richaaaard 阅读(1864) 评论(0) 推荐(1) 编辑
摘要:ElasticSearch 2 (20) 语言处理系列之如何开始 摘要 Elasticsearch 配备了一组语言分析器,为世界上大多数常见的语言提供良好的现成基础支持。 阿拉伯语、亚美尼亚语,巴斯克语,加泰罗尼亚语,巴西语、保加利亚语、汉语、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语 阅读全文
posted @ 2016-03-16 10:17 Richaaaard 阅读(1058) 评论(0) 推荐(0) 编辑
摘要:ElasticSearch 2 (19) 语言处理系列之故事开始 摘要 全文搜索是精度(尽可能少的返回不相关文档)和召回(尽可能多的返回相关文档)的战场。尽管只精确匹配用户查询的词肯定会是精确的,但这并不够。我们可能会丢失许多被用户认为相关的文档,取而代之的是我们需要扩大撒网范围,去搜索那些与原始查 阅读全文
posted @ 2016-03-16 09:37 Richaaaard 阅读(618) 评论(0) 推荐(0) 编辑