随笔档案「2019年6月16日」：17 文档写入内核级原理（过程） ... - Snow~Forever

2019年6月16日

摘要： ElasticSearch的Index底层结构 ES中，index 由多个shard组成。每个shard，实际上是一个Lucene index。在Lucene中，它的每个index，由多个segment组成。每个segment内部，实际上是若干个倒排索引。 ES数据写入的流程：（1）每当有一个d 阅读全文

posted @ 2019-06-16 20:45 Snow~Forever 阅读(181) 评论(0) 推荐(0)

16 doc values 【正排索引】

摘要：搜索的时候，要依靠倒排索引；排序的时候，需要依靠正排索引，看到每个document的每个field，然后进行排序，所谓的正排索引，其实就是doc values 在建立索引的时候，一方面会建立倒排索引，以供搜索用；一方面会建立正排索引，也就是doc values，以供排序，聚合，过滤等操作使用 doc 阅读全文

posted @ 2019-06-16 20:44 Snow~Forever 阅读(252) 评论(0) 推荐(0)

15.1 自定义分词器

摘要：创建自定义分词器测试分词器 DELETE /test_analyzer PUT /test_analyzer { "settings": { "analysis": { "char_filter": { "sign_to_word": { "type": "mapping", "mappings" 阅读全文

posted @ 2019-06-16 20:42 Snow~Forever 阅读(254) 评论(0) 推荐(0)

15 设置系统分词器

摘要：默认：标准分词器standard，会把一句话，按英文空格分词。 standard tokenizer：以单词边界进行切分 standard token filter：什么都不做 lowercase token filter：将所有字母转换为小写 stop token filer（默认不移除）：移除停阅读全文

posted @ 2019-06-16 20:41 Snow~Forever 阅读(250) 评论(0) 推荐(0)

14.1 Scroll说明和注意事项

摘要：使用scroll滚动搜索：比如全文搜索10万条数据，不能一次全搜出来返回，太耗时了。通常是一批一批的获取结果，滚动搜索 1. 第一次搜索时，会生成这批数据的快照，下次再搜的时候，基于此快照进行搜索 2. 在scroll快照生效期间，发生的数据变更，不会被搜到（数据不一致） 3. 尽量不要用相关度评阅读全文

posted @ 2019-06-16 20:40 Snow~Forever 阅读(209) 评论(0) 推荐(0)

14 Scroll 滚动搜索

摘要： Scroll的用法：第一次搜的时候，要指定快照保留时间1min，分页的大小：2条/页；对于第一次搜索，ES会返回一个这个scroll的id；下次再搜的时候，就带着这个scrollid去搜就行了，不用再指定size和搜索条件了 GET /beauties/my/_search?scroll=1 阅读全文

posted @ 2019-06-16 20:39 Snow~Forever 阅读(286) 评论(0) 推荐(0)

13 对象存储

摘要：一、对象存储下图中的 Address就是嵌套对象查看它的mapping，可以看到address有自己的属性实际存储： { "Name":"Qi Wei", "Age":22, "Address.Country":"China", "Address.Province":"Sichuan", " 阅读全文

posted @ 2019-06-16 20:39 Snow~Forever 阅读(134) 评论(0) 推荐(0)

12.1 Mapping手动创建

摘要：只能在index里的field不存在的时候，才能指定新field的数据类型，field有数据后，就不能再修改field的类型了可创建的类型如下： integer double date text/string analyzed 分词（默认） not_analyzed 不分词 no 不索引创建各种阅读全文

posted @ 2019-06-16 20:38 Snow~Forever 阅读(127) 评论(0) 推荐(0)

12 Mapping查询

摘要：查看某个index下所有type的mapping GET /beauties/_mapping 查看指定index、指定type的mapping GET /beauties/_mapping/cn 阅读全文

posted @ 2019-06-16 20:38 Snow~Forever 阅读(249) 评论(0) 推荐(0)

10 查询字符串，X字段必须包含（不包含）XX；_all原理

摘要：指定某个字段，必须要包含XX字符 GET /beauties/my/_search?q=Name:Chang Wei 搜出某个字段不包含XX字符的所有内容 GET /beauties/my/_search?q=-Name:Ruru （搜索结果中，Name都不包含Ruru）不管哪个字段，只要包含阅读全文

posted @ 2019-06-16 20:37 Snow~Forever 阅读(957) 评论(0) 推荐(0)

8 search中的timeout参数

摘要：默认的search，是没有时间限制的。比如，一个search，可能要10分钟才能搜完，那么，es就会等10分钟，直到结果出来。然而，在某些场景下，客户是等不了10分钟的。比如，电商网站，客户宁可等待1秒钟，得到100条结果，也不愿意等10分钟，看到10000条结果。所以，我们会在search上指阅读全文

posted @ 2019-06-16 20:36 Snow~Forever 阅读(366) 评论(0) 推荐(0)

9 同时搜索多个index，或多个type

摘要：搜索所有index（慎用）： GET /_search 搜一个索引下，所有type，（不指定type即可） GET /beauties/_search 搜多个索引，则多个索引间，用逗号(,)分隔开 GET /beauties,test_index/_search 使用通配符，搜索所有匹配的index 阅读全文

posted @ 2019-06-16 20:36 Snow~Forever 阅读(325) 评论(0) 推荐(0)

7.1 为什么bulk使用奇特的json格式？

摘要：回顾： bulk的语法要求：每个json串都不能换行，不同json串之间，必须换行为什么不用标准json数组呢？如： [ { "create":{...} }, { "update":{...}s } ] 因为，如果使用这种Json数组，ES需要做的是把字符串转成 Json数组对象按每个Jso 阅读全文

posted @ 2019-06-16 20:35 Snow~Forever 阅读(163) 评论(0) 推荐(0)

6：Partial Update 内部原理和乐观锁并发控制

摘要： Partial Update 内部执行过程：首先，ES文档是不可变的，它们只能被修改，不能被替换。Update Api 也不例外。 Update API 简单使用与之前描述相同的检索-修改-重建索引（reindex）的处理过程。区别在于这个过程发生在分片内部。相当于ES的Shard内部执阅读全文

posted @ 2019-06-16 20:34 Snow~Forever 阅读(184) 评论(0) 推荐(0)

7 批量查询mget、批量修改bulk

摘要：注意：当执行多条数据查询、增删改时，一定要用mget、bulk，提升性能，减少网络传输 mget 回顾：查询单个文档 GET /beauties/my/2 mget 查询多个文档：不同 index、不同type、不同id GET /_mget { "docs":[ { "_index":"beau 阅读全文

posted @ 2019-06-16 20:34 Snow~Forever 阅读(238) 评论(0) 推荐(0)

4: ES内执行Groovy脚本，做文档部分更新、执行判断改变操作类型

摘要： ES有内置的Groovy脚本执行内核，可以在命令的Json内嵌入Groovy脚本语句前提数据：让 num 加 10. POST /test_index/test_type/1/_update { "script":"ctx._source.num+=10" } 把Groovy脚本（含参数）保存在阅读全文

posted @ 2019-06-16 20:32 Snow~Forever 阅读(671) 评论(1) 推荐(0)

3：基于乐观锁（两种）控制并发： version、external锁

摘要： ES是基于乐观锁进行并发控制的。如果有并发的业务场景，可以直接使用ES内置乐观锁机制。使用的时候，java程序需要先Get指定的记录，获取到版本号，然后Put的时候，带着该版本号，请求更新。 ES只有判断到该记录的 version = 请求中的version值时，才能进行更新。如果不相等，则阅读全文

posted @ 2019-06-16 20:32 Snow~Forever 阅读(477) 评论(0) 推荐(0)

2 Match、Filter、排序、分页、全文检索、短语匹配、关键词高亮

摘要：查索引内所有文档记录 GET /beauties/my/_search GET /beauties/my/_search { "query":{ "match_all": {} } } 匹配、排序 GET /beauties/my/_search { "query": { "match": { "N 阅读全文

posted @ 2019-06-16 20:31 Snow~Forever 阅读(373) 评论(0) 推荐(0)

1.1 文档PUT内部原理

摘要：文档更新原理： PUT 一条数据的时候，如果是全量替换，ES并不会覆盖原来的文档，而是新创建一个文档，并将version+1，原文档标记为deleted，不会立刻物理删除。ES会在集群的deleted文档越来越多的时候，集中把它们物理删掉，以释放空间。阅读全文

posted @ 2019-06-16 20:30 Snow~Forever 阅读(154) 评论(0) 推荐(0)

1 集群状态、增删改查、全量替换、强制创建、设置单个index的分片数副本数

摘要：检查集群健康状态，可以看集群颜色。（黄色：primary shard都正常，replica不正常） GET /_cat/health?v 列出集群所有index GET /_cat/indices?v GET _cluster/health PUT一条数据：如果指定文档不存在则创建，存在则全量替换。阅读全文

posted @ 2019-06-16 20:29 Snow~Forever 阅读(198) 评论(0) 推荐(0)

Ever Snow ~

公告