Elasticsearch学习-索引操作及Mapping映射

堆内存:大小和交换 | Elasticsearch: 权威指南 | Elastic

不要超过 32 GB！

这里有另外一个原因不分配大内存给 Elasticsearch。事实上， JVM 在内存小于 32 GB 的时候会采用一个内存对象指针压缩技术。

在 Java 中，所有的对象都分配在堆上，并通过一个指针进行引用。普通对象指针（OOP）指向这些对象，通常为 CPU 字长的大小：32 位或 64 位，取决于你的处理器。指针引用的就是这个 OOP 值的字节位置。

对于 32 位的系统，意味着堆内存大小最大为 4 GB。对于 64 位的系统，可以使用更大的内存，但是 64 位的指针意味着更大的浪费，因为你的指针本身大了。更糟糕的是，更大的指针在主内存和各级缓存（例如 LLC，L1 等）之间移动数据的时候，会占用更多的带宽。

Java 使用一个叫作内存指针压缩（compressed oops）的技术来解决这个问题。它的指针不再表示对象在内存中的精确位置，而是表示 偏移量 。这意味着 32 位的指针可以引用 40 亿个对象，而不是 40 亿个字节。最终，也就是说堆内存增长到 32 GB 的物理内存，也可以用 32 位的指针表示。

一旦你越过那个神奇的 ~32 GB 的边界，指针就会切回普通对象的指针。每个对象的指针都变长了，就会使用更多的 CPU 内存带宽，也就是说你实际上失去了更多的内存。事实上，当内存到达 40–50 GB 的时候，有效内存才相当于使用内存对象指针压缩技术时候的 32 GB 内存。

这段描述的意思就是说：即便你有足够的内存，也尽量不要超过 32 GB。因为它浪费了内存，降低了 CPU 的性能，还要让 GC 应对大内存。

到底需要低于 32 GB多少，来设置我的 JVM？

遗憾的是，这需要看情况。确切的划分要根据 JVMs 和操作系统而定。如果你想保证其安全可靠，设置堆内存为 31 GB 是一个安全的选择。另外，你可以在你的 JVM 设置里添加 -XX:+PrintFlagsFinal 用来验证 JVM 的临界值，并且检查 UseCompressedOops 的值是否为 true。对于你自己使用的 JVM 和操作系统，这将找到最合适的堆内存临界值。

例如，我们在一台安装 Java 1.7 的 MacOSX 上测试，可以看到指针压缩在被禁用之前，最大堆内存大约是在 32600 mb（~31.83 gb）：

一、名词解释

1）索引

在7.X版本前类似于关系型数据库中的数据库概念，8.X版本后删除了type概念，索引类似于关系型数据库中的表

2）文档

相当于关系型数据库中的一条数据，最小单元

3）节点

每一个节点就是一个ES实例（一个java进程），一个节点 != 一台服务器

4）集群

多个节点组成分布式系统，ES原生分布式，已启动一个ES进程，再启动一个进程，这个进程会自动发现集群并进入，前提条件是所有节点配置一套集群信息

5）分片

一个索引包含一个多个分片，7.0之前默认五个主分片，每个主分片一个副本，在7.0之后默认一个主分片，副本可以在索引创建之后修改数量，但是主分片的数量一旦确定不可修改。每个分片都是一个Lucene实例，有完成的创建索引和处理请求的能力ES会自动在节点上做分片均衡，每个主分片和其副本分片不能同时存在于同一个节点上。

二、索引CRUD

1）创建索引

PUT /indexName?pretty

2）查询操作

# 查询索引信息
GET _cat/indices?v
# 查询所有数据
GET /indexName/_search
# 查询第一条数据
GET /indecName/_doc/1

3）删除操作

# 删除索引
DELETE /indexName?pretty
#删除数据
DELETE /indexName/_doc/id

4) 插入数据

#插入数据指定id
PUT /indexName/_doc/id
{
Json数据
}

# 示例
PUT /product/_doc/1
{
"name":"手机",
"price"："1399"，
"desc":["美观","小巧"]
}

5）修改数据

1. 同插入数据，全量替换

2. 指定字段更新（两种格式均可）

POST /indexName/_doc/1 _update
{
"doc":{
"fieldName":""
}
}

POST /indexName/_update/id
{
"doc":{
"fieldName":""
}
}

3.按条件删除数据

POST /indexName/_doc/_delete_by_query
{
"query": {
"term": {
"fieldName": "11"
}
}
}

三、Mapping映射

定义文档及其包含字段的存储和索引信息，类似“表结构” 概念

包含属性：字段名称、类型、字段使用的分词器、是否评分、是否创建索引等

1）查看mapping

GET /indexName/_mappings

2) ES数据类型

常见数据类型

1. 数字类型

long integer short byte double float half_float scaled_float unsigned_long

2. keywords

keyword：适用于索引结构化的字段，只能精确值搜索，可以用于过滤、排序、聚合

constant_keyword：始终包含相同值的关键字字段

wildcard: 可针对类似grep的通配符查询优化日志行等类似的关键字值
3. 时间类型 Dates ：包括 date和date_nanos

4. alias 定义别名

5. binary 二进制

6. range 区间类型 integer_range、float_range、long_range、double_range、date_range

7. text 类型

设置text类型以后，字段内容会被分析，在生成倒排索引（默认）以前，字符串会被分析器分成一个一个词项，text类型的字段不用于排序，很少用于聚合

对象关系类型

1. object : 用于单个JSON对象

2. nested: 用于JSON对象数组

3. flattened: 允许将整个JSON对象索引为单个字段

结构化类型

1. geo-point：纬度/经度积分

2. geo-shape：用于多边形等复杂形状

3. point：笛卡尔坐标点

4. shape：笛卡尔任意几何图形

特殊类型(常用)

1. IP地址：ip 用于IPv4和IPv6地址

2. completion 提供自动完成建议

数组 array

在Elasticsearch中，数组不需要专用的字段数据类型。默认情况下，任何字段都可以包含零个或多个值，但是，数组中的所有值都必须具有相同的数据类型

3）映射类型

动态自动映射

PUT /product_mapping/_doc/1
{
"name": "手机",
"desc": "插入数据直接自动映射",
"count": 100,
"price": 1999.9,
"date": "2022-12-7",
"isdel": true,
"tags": [
"xiaoqiao",
"fashion"
]
}

静态手动映射

# 案例
PUT /product
{
"mappings": {
"properties": {
"date": {
"type": "text"
},
"desc": {
"type": "text",
"analyzer": "english"
},
"name": {
"type": "text",
"index": "false"
},
"price": {
"type": "long"
},
"tags": {
"type": "text",
"index": "true"
},
"parts": {
"type": "object"
},
"partlist": {
"type": "nested"
}
}
}
}

常用映射参数

1. index：是否对当前字段创建倒排索引，默认为true，若为false，该字段不会通过索引被搜索到，但是仍会在source元数据中展示

2. analyzer：指定分析器（character filter、tokenizer、Token filters）

3. doc_values：为了提升排序和聚合效率，默认true，如果确定不需要对字段进行排序或聚合，也不需要通过脚本访问字段值，则可以禁用doc值以节省磁盘空间（不支持text和annotated_text）

4. eager_global_ordinals：用于聚合的字段上，优化聚合性能

5. enable：是否创建倒排索引，可以对字段操作，也可以对索引操作

PUT my_index
{
"mappings":
{
"enabled": false
}
}

6. fielddata：查询时内存数据结构，在首次用当前字段聚合、排序或者在脚本中使用时，需要字段为fielddata数据结构，并且创建倒排索引保存到堆中

#每个tag产品的数量 "size":0, 不显示原始结果
GET /product/_search
{
"aggs": {
"tag_agg_group": {
"terms": {
"field": "tags"
}
}
},
"size":0
}

#将文本field的fielddata属性设置为true
PUT /product/_mapping
{
"properties": {
"tags": {
"type": "text",
"fielddata": true
}
}
}

7. fields：给field创建多字段，用于不同目的（全文检索或者聚合分析排序）

# 给product创建一个keyword
PUT fields_test
{
"mappings": {
"properties": {
"product": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}
}
}
}

# 插入数据
PUT fields_test/_doc/1
{
"product": "New York"
}

# 查询数据
GET fields_test/_search
{
"query": {
"match": {
"product": "york"
}
},
"sort": {
"product.raw": "asc"
},
"aggs": {
"product": {
"terms": {
"field": "product.raw"
}
}
}
}

8. norms：是否禁用评分（在filter和聚合字段上应该禁用）

9. null_value：为null值设置默认值

10. search_analyzer：设置单独的查询时分析器

11. store：设置字段是否仅查询

12. format：格式化

"date": {
"type": "date",
"format": "yyyy-MM-dd"
}

13. copy_to 将多个字段的值复制到组字段中，然后可以将其作为单个字段进行查询

# mapping映射
PUT copy_to_test
{
"mappings": {
"properties": {
"field1": {
"type": "text",
"copy_to": "field_all"
},
"field2": {
"type": "text",
"copy_to": "field_all"
},
"field_all": {
"type": "text"
}
}
}
}

# 数据插入
PUT copy_to/_doc/1
{
"field1": "field1",
"field2": "field2"
}

# 查询可匹配到数据
GET copy_to/_search
{
"query": {
"match": {
"field_all": {
"query": "field1 field2"
}
}
}
}

14. coerce：是否允许强制类型转换

# mapping映射
PUT coerce_test
{
"mappings": {
"properties": {
"number_one": {
"type": "integer"
},
"number_two": {
"type": "integer",
"coerce": false
}
}
}
}
# 插入数据
# 成功
PUT coerce_test/_doc/1
{
"number_one": "10"
}
#//失败，因为coerce设置了false
PUT coerce_test/_doc/2
{
"number_two": "10"
}

15. dynamic：控制是否可以动态添加新字段

true 新检测到的字段将添加到映射中（默认）

false 新检测到的字段将被忽略，这些字段将不会被索引，因此将无法搜索，但仍会出现在_source返回的匹配项中。这些字段不会添加到映射中，必须显式添加新字段。

strict 如果检测到新字段，则会引发异常并拒绝文档，必须将新字段显式添加到映射中

PUT dynamic_test
{
"mappings": {
"dynamic": false,
"properties": {
"user": {
"properties": {
"date": {
"type": "text"
}
}
}
}
}
}

posted @ 2024-02-26 16:28 CharyGao 阅读(107) 评论(0) 收藏举报

刷新页面返回顶部

硅基文明

代码改变不了世界，但是改变世界需要代码。

Elasticsearch学习-索引操作及Mapping映射

堆内存:大小和交换 | Elasticsearch: 权威指南 | Elastic

不要超过 32 GB！

到底需要低于 32 GB多少，来设置我的 JVM？

一、名词解释

1）索引

2）文档

3）节点

4）集群

5）分片

二、索引CRUD

1）创建索引

2）查询操作

3）删除操作

4) 插入数据

5）修改数据

三、Mapping映射

1）查看mapping

2) ES数据类型

常见数据类型

对象关系类型

结构化类型

特殊类型(常用)

数组 array

3）映射类型

动态自动映射

静态手动映射

常用映射参数

硅基文明

代码改变不了世界，但是改变世界需要代码。

Elasticsearch学习-索引操作及Mapping映射

堆内存:大小和交换 | Elasticsearch: 权威指南 | Elastic

不要超过 32 GB！

到底需要低于 32 GB多少，来设置我的 JVM？

一、名词解释

1）索引

2）文档

3）节点

4）集群

5）分片

二、索引CRUD

1）创建索引

2）查询操作

3）删除操作

4) 插入数据

5）修改数据

三、Mapping映射

1）查看mapping

2) ES数据类型

常见数据类型

对象关系类型

结构化类型

特殊类型(常用)

数组 array

3）映射类型

动态 自动映射

静态 手动映射

常用映射参数

动态自动映射

静态手动映射