随笔分类 -  Elasticsearch

1
摘要:一、前言 数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的 实现参考,少走些弯路,在此篇幅中偏重于ES的优化,关于HBase,Hadoop的设计优化估计有很多文章可以参考,不再赘述。 【目前生产已存储百亿数据,性能良好(但未使用分词功能) 阅读全文
posted @ 2022-10-13 19:29 苍青浪 阅读(257) 评论(0) 推荐(0) 编辑
摘要:ES中可以为索引添加别名,一个别名可以指向到多个索引中,同时在添加别名时可以设置筛选条件,指向一个索引的部分数据,实现在关系数据库汇总的视图功能,这就是ES中别名的强大之处。别名是一个非常实用的功能,为我们使用索引提供了极大的灵活性,许多ES的API都支持用别名来代替真实索引名。通过索引我们可以方便 阅读全文
posted @ 2022-08-15 17:03 苍青浪 阅读(351) 评论(0) 推荐(0) 编辑
摘要:基本概念 这两个概念比较像,所以大部分时候会放在一起说。 这两个概念源于Elasticsearch(后面简称ES)除了强大的搜索功能外,还可以支持排序,聚合之类的操作。搜索需要用到倒排索引,而排序和聚合则需要使用 "正排索引"。说白了就是一句话,倒排索引的优势在于查找包含某个项的文档,而反过来确定哪 阅读全文
posted @ 2022-08-14 14:57 苍青浪 阅读(965) 评论(0) 推荐(0) 编辑
摘要:fuzzy在es中可以理解为模糊查询,搜索本身很多时候是不精确的,很多时候我们需要在用户的查询词中有部分错误的情况下也能召回正确的结果,但是计算机无法理解自然语言,因此我们只能通过一些算法替代语言理解能力实现类似的事情,前缀查询的实现比较简单但效果很难令人满意,就模糊查询而言es的fuzzy实现了一 阅读全文
posted @ 2022-08-13 21:22 苍青浪 阅读(1409) 评论(0) 推荐(0) 编辑
摘要:Elastic Search 为了避免深分页,不允许使用分页(from + size)查询 10000 条以后的数据,因此如果要查询第 10000 条以后的数据,要使用 Elastic Search 提供的 scroll 游标 来查询 1. 为什么不能使用 from + size 进行深分页查询? 阅读全文
posted @ 2021-12-02 14:29 苍青浪 阅读(384) 评论(0) 推荐(0) 编辑
摘要:搜索引擎为什么能查询速度那么快? 核心是在于如何快速的依据查询词快速的查找到所有的相关文档,这也是倒排索引(Inverted Index)的核心思想。那么如何设计一个快速的(常量,或者1)定位词典的数据结构就显得尤其重要。简单来说,我们可以采用HashMap, TRIE, Binary Search 阅读全文
posted @ 2021-11-26 09:56 苍青浪 阅读(1120) 评论(0) 推荐(1) 编辑
摘要:"All problems in computer science can be solved by another level of indirection.” – David J. Wheeler “计算机世界就是 trade-off 的艺术” 一、前言 最近接触的几个项目都使用到了 Elast 阅读全文
posted @ 2021-11-11 15:08 苍青浪 阅读(532) 评论(0) 推荐(0) 编辑
摘要:ES提供了强大的聚合分析功能,按照操作上细化,可以主要分为四种,如下表所示: 聚合方式解释 Bucket Aggregation 一些满足特定条件的文档的集合 Metric Aggregation 一些数学计算,可以对文档字段统计分析 Pipeline Aggregation 对其他的聚合结果进行二 阅读全文
posted @ 2020-12-20 18:35 苍青浪 阅读(2095) 评论(0) 推荐(1) 编辑
摘要:analyzer 分词器使用的两个情形: 1,Index time analysis. 创建或者更新文档时,会对文档进行分词2,Search time analysis. 查询时,对查询语句分词 - 查询时通过analyzer指定分词器 GET test_index/_search { "query 阅读全文
posted @ 2020-12-20 14:46 苍青浪 阅读(915) 评论(0) 推荐(0) 编辑
摘要:问题出现环境,OS版本:CentOS-7-x86_64-Minimal-1708;ES版本:elasticsearch-6.2.2。 1、max file descriptors [4096] for elasticsearch process is too low, increase to at 阅读全文
posted @ 2019-11-13 19:13 苍青浪 阅读(333) 评论(0) 推荐(0) 编辑
摘要:目前我都是在windows的环境下操作是Elasticsearch,并且喜欢使用命令行 启动时通过cmd直接在elasticsearch的bin目录下执行elasticsearch 这样直接启动的话集群名称会默认为elasticsearch,节点名称会随机生成。 停止就直接在cmd界面按Ctrl+C 阅读全文
posted @ 2019-05-17 10:10 苍青浪 阅读(3346) 评论(0) 推荐(0) 编辑
摘要:全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。 它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。 Elastic 的底层是开源库 Lucene。但是,你没法直接用 Lucene 阅读全文
posted @ 2019-03-01 17:56 苍青浪 阅读(1674) 评论(2) 推荐(0) 编辑
摘要:上一篇说到如果一个索引的mapping设置过了,想要修改type或analyzer,通常的做法是新建一个索引,重新设置mapping,再把数据同步过来。 那么如何实现零停机时间更新索引配置或迁移索引?这就需要用到索引的别名设置。 思路: 1、假设我们的索引是demo_v1,我们定义了一个别名demo 阅读全文
posted @ 2019-03-01 17:37 苍青浪 阅读(490) 评论(0) 推荐(0) 编辑
摘要:1、检测集群是否健康。 curl -XGET 'localhost:9200/_cat/health?v'#后面加一个v表示让输出内容表格显示表头 绿色表示一切正常,黄色表示所有的数据可用但是部分副本还没有分配,红色表示部分数据因为某些原因不可用。 2、查看集群的的节点列表。 curl -XGET 阅读全文
posted @ 2019-03-01 17:36 苍青浪 阅读(340) 评论(0) 推荐(0) 编辑
摘要:1、背景介绍 最近做的一个项目需要快速检索数据,经过商讨后采用了ElasticSearch作为快速检索数据引擎,但是数据如何同步到ES中是个问题,我们最开始计划了定时任务、mysql trigger等方式,最后选择了比较好的canal组件,通过canal同步mysql中的数据到ES中,所以要学习一下 阅读全文
posted @ 2019-03-01 17:35 苍青浪 阅读(737) 评论(0) 推荐(0) 编辑
摘要:一、目标 使用node搭建一个知识库检索系统,要求词条平均检索速度必须在1s以内。 二、思路。 本人思路如下图。 橙色部分为我们要开发的内容, ES服务搭建(暂时用单节点测试,集群搭建以后再说), 三、示例测试速度。 本月使用示例 node-elasticsearch-tutorial 导入了400 阅读全文
posted @ 2019-03-01 17:33 苍青浪 阅读(471) 评论(0) 推荐(0) 编辑
摘要:使用Elasticsearch不免要提到curl工具,curl是利用URL语法在命令行方式下工作的开源文件传输工具。官网地址:https://curl.haxx.se/ 因为elasticsearch提供了标准的http接口,所以我们可以使用curl方便的访问elasticsearch。 下面收集了 阅读全文
posted @ 2019-03-01 17:32 苍青浪 阅读(429) 评论(0) 推荐(0) 编辑
摘要:1、Elasticsearch搜索数据有两种方式。 一种方式是通过REST请求URI,发送搜索参数; 另一种是通过REST请求体,发送搜索参数。而请求体允许你包含更容易表达和可阅读的JSON格式。这个是DSL查询(Query DSL). 2、Elasticsearch搜索基本语法。 [GET|POS 阅读全文
posted @ 2019-03-01 17:31 苍青浪 阅读(940) 评论(0) 推荐(0) 编辑
摘要:1、学习Elasticsearch概述。 了解Elasticsearch是什么?能做什么?可以查一下elasticsearch、lucene等的相关介绍,另外也可以查查资料比较一下其它的搜索引擎sphinx、reds等。 2、学习Elasticsearch术语。 上面参考文章中只列了几个核心术语,其 阅读全文
posted @ 2019-03-01 17:30 苍青浪 阅读(975) 评论(0) 推荐(0) 编辑
摘要:Elasticsearch 是一款开源的搜索引擎,由于其高性能和分布式系统架构而备受关注。本文将讨论其关键特性,并手把手教你如何用它创建 Node.js 搜索引擎。 Elasticsearch 概述 Elasticsearch 底层使用 Apache Lucene 库,Apache Lucene 自 阅读全文
posted @ 2019-03-01 15:48 苍青浪 阅读(2066) 评论(0) 推荐(0) 编辑

1
点击右上角即可分享
微信分享提示
哥伦布
03:14发布
哥伦布
03:14发布
7°
多云
西南风
3级
空气质量
相对湿度
64%
今天
多云
-1°/10°
周三
小雨
2°/12°
周四
中雨
2°/14°