ElasticSearch笔记-映射(mapping)
概念
Mapping(映射)用来定义文档包含的字段名、字段数据类型以及文档如何存储和索引这些字段的规则
显式映射 & 动态映射
显式映射
显式映射以完全控制字段的存储和索引方式。
显式映射的意义:
- 哪些字符串字段应该作为全文字段(text)处理。
- 哪些字段包含数字、日期或地理位置。
- 日期值的格式。
动态映射
当Elasticsearch在文档中检测到新字段时,会自动确定字段的数据类型,并自动把新字段添加到映射的过程称为动态映射。
https://www.cnblogs.com/fanfan-90/p/14915869.html
ES映射类型
简单数据类型
字符串
text:会分词,不支持聚合
keyword:不会分词,将全部内容作为一个词条,支持聚合、排序
数值
long、integer、short、byte、double、float、half_float、scaled_float
布尔
类型值boolean。接受true、false值,也支持字符串"true"、"false" 或空字符串"",空字符串表示false。在聚合操作时,返回boolean类型使用1和0作为key,使用字符串“true”和“false”作为key_as_string。
二进制
类型值binary。接收一个Base64编码的二进制值。该类型定义的字段不可搜索,且默认不存储。
范围类型
integer_range、float_range、long_range、double_range、date_range
日期
JSON层次结构的类型
数组:[]
对象:{}
"mappings": {
"properties": {
"id":{
"type":"long"
},
"name":{
"properties": {
"firstname":{"type":"keyword"},
"lastname":{"type":"keyword"}
}
}
}
}
nested:直观的说Nested实际上就是Object的数组,但与对象数组实际存储方式又不同,下面有介绍
flattened
join为同一索引中的文档定义父子关系
特定类型
range
ip
version
geo_shape
completion
映射操作API
添加映射
PUT index7/_mapping
{
"properties":{
"name":{
"type":"keyword"
},
"age":{
"type":"integer"
},
"description":{
"type":"text",
"analyzer": "ik_max_word"
}
}
}
查询映射
GET index7/_mapping
添加字段
PUT index7/_mapping
{
"properties":{
"classid":{
"type":"integer"
},
"description":{
"type":"text"
}
}
}
Mapping参数
映射参数(mapping parameters)用于字段类型的映射,每个字段类型有一个或多个映射参数搭配使用。
analyzer
analyzer参数指定一个用于索引text字段时的文本分析的分析器,如果search_analyzer参数没有覆盖,该分析器也用于搜索时的文本分析。
只有text字段支持analyzer参数。
search_analyzer
查询时使用指定的分析器,默认情况下,搜索时将使用参数analyzer定义的分析器,从而保持与索引时一样的分析器
boost
增强匹配权重,默认1.0。通过设置boost参数的值,改变相关性得分的计算,进而可以影响单个字段相比于其他字段在查询时自动提升。如:title的匹配权重大于content匹配权重
PUT my_index_01
{
"mappings": {
"properties": {
"title": {
"type": "text",
"boost": 2
},
"content": {
"type": "text"
}
}
}
}
coerce
默认true。表示尝试清除脏数据值,以符合字段的数据类型,例如,如果字段数据类型为整数类型,那么输入的字符串强制转换为数字,浮点数将被截断。如果coerce参数设置为false,那么遇到脏数据不会进行强制转换,而是直接抛出异常。
通过配置参数index.mapping.coerce,可以进行索引级别的禁用coercion,类型级别的coercion作用优先级大于索引级别
PUT my_index_01
{
"settings": {
"index.mapping.coerce": false
},
"mappings": {
"properties": {
...
}
}
}
copy_to
将多个字段的值复制到组合字段中。然后可以将这个组合字段作为单个字段进行查询。如果经常搜索多个字段,可以通过copy_to参数来搜索更少的字段,进而提高搜索速度,如:first_name和last_name,复制到full_name
PUT my_index_01
{
"mappings": {
"properties": {
"first_name": {
"type": "text",
"copy_to": "full_name"
},
"last_name": {
"type": "text",
"copy_to": "full_name"
},
"full_name": {
"type": "text"
}
}
}
}
dynamic
参数dynamic,可以在文档和对象级别控制动态映射,参数dynamic可以设置为下列三种值:
(1)true:将新的检测到的字段添加到映射中。(默认)
(2)false:忽略新检测到的字段。这些字段将不会被索引,因此不能被搜索,但仍然会出现在返回命中的_source字段中。这些字段将不会添加到映射中,新的字段必须显式添加。
(3)strict:如果检测到新字段,则抛出异常并拒绝索引文档。新字段必须显式地添加到映射中。
fields
fields参数用于提供多字段。使得字段具有多种类型的功能。fields不会修改原始字段_source的值。
PUT my_index_01
{
"mappings": {
"properties": {
"city": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}
}
}
}
PUT my_index_01/_doc/1
{"city":"New York"}
PUT my_index_01/_doc/2
{"city":"York"}
GET my_index_01/_search
{
"query": {
"match": {
"city": "york"
}
},
"sort": {
"city.raw": "asc"
},
"aggs": {
"Cities": {
"terms": {
"field": "city.raw"
}
}
}
}
多字段用于多分析器,示例如下:
PUT my_index_01
{
"mappings": {
"properties": {
"text": { //1
"type": "text",
"fields": {
"english": { //2
"type": "text",
"analyzer": "english"
}
}
}
}
}
}
PUT my_index_01/_doc/1
{ "text": "quick brown fox" }
PUT my_index_01/_doc/2
{ "text": "quick brown foxes" }
GET my_index_01/_search
{
"query": {
"multi_match": {
"query": "quick brown foxes",
"fields": [ //3
"text",
"text.english"
],
"type": "most_fields" //3
}
}
}
注释1:text字段使用standard分析器。
注释2:text.english字段使用english分析器。
注释3:通过text和text.english字段合并得分。
format
通过format参数设置日期格式,参数值需要符合日期格式语法。自定义格式操作如下:
PUT my_index_01
{
"mappings": {
"properties": {
"date": {
"type": "date",
"format": "yyyy-MM-dd"
}
}
}
}
ignore_above
超过长度的字符串内容将不会被索引
properties
类型映射、object字段和nested字段包含的子字段称为属性(properties)。这些属性可以是任何数据类型,包括object和nested。属性可以在通过下列方式添加:
(1)通过在创建索引时显式地定义它们。
(2)通过在使用PUT Mapping API添加或更新映射类型时显式地定义它们。
(3)动态地索引包含新字段的文档。
创建索引时显式地定义示例如下:
PUT my_index_01
{
"mappings": {
"properties": {
"manager": {
"properties": {
"age": { "type": "integer" },
"name": { "type": "text" }
}
},
"employees": {
"type": "nested",
"properties": {
"age": { "type": "integer" },
"name": { "type": "text" }
}
}
}
}
}
store
单独存储属性值。默认对字段值进行索引以使其可搜索,但不单独存储它们,但是已存储在_source字段中
默认情况下,字段值被索引以使其可搜索,但不会被存储。这意味着可以查询字段,但不能检索原始字段值。通常这并不重要。字段值已经是_source字段的一部分,该字段默认存储。 如果您只想检索单个字段或几个字段的值,而不是整个_source的值,则可以使用source filtering来实现。
在某些情况下,文本的内容可能过大,我们不想将所有文本内容存储在_source字段,但有些字段内容又希望能被查找到,在这种情况下,可以使用store参数。例如,如果有一个有标题的文档,一个日期,和一个非常大的内容字段,我们只想要获取标题和日期内容,但又不想要内容字段,操作示例如下:
PUT my_index_01
{
"mappings": {
"_source": {
"enabled": false
},
"properties": {
"title": {
"type": "text",
"store": true
},
"date": {
"type": "date",
"store": true
},
"content": {
"type": "text"
}
}
}
}
ignore_malformed
index
index_options
index_phrases
index_prefixes
meta
norms
null_value
position_increment_gap
similarity
term_vector
doc_values
eager_global_ordinals
enabled
fielddata
search_quote_analyzer
其他
multi-field
multi_field 多域类型允许你对同一个值以映射的方式定义成多个基本类型 core_types . 这个非常有用,比如,如果你定义一个 string 类型的字段,你需要这个字段的分词一会是 analyzed ,但是有时候又希望该字段是 not_analyzed 类型的,通过使用 multi_field 就可以很方便的解决这个问题. 下面来看个例子:
{
"tweet" : {
"properties" : {
"name" : {
"type" : "multi_field",
"fields" : {
"name" : {"type" : "string", "index" : "analyzed"},
"untouched" : {"type" : "string", "index" : "not_analyzed"}
}
}
}
}
}
上面的例子,显示了我们是如何定义一个名为 name 的字段, 它的数据类型是 string 字符类型, 该字段映射了两次(实际物理上产生了2个索引字段),其中一个是以 name 的名称 定义为 analyzed 分词类型,另外一个定义成了名称为 untouched 的 not_analyzed 类型,即不分词处理.
字段访问
当使用 multi_field mapping定义之后, fields里面的和字段名称和外部的字段名称相同的字段定义会被当做该mult-field的默认字段(因为一个multi类型字段会被拆分成多个字段,所以,会有一个默认值),我们可以通过直接名称 name 或者使用 tweet.name 格式的方式来指定字段.
其它定义的不同名称的字段也可以通过使用特点的导航来指定(即使用“.”符合来分割),如: name.untouched, 或者还带上类型名称 tweet.name.untouched.
Nested和Object List有什么区别?
ES原生支持Object类型,也就是任意字段都可以是个对象,而ES又是所有字段都是多值,也就是都可以是list。那么在ES中Nested和Object List又是什么关系呢?
这就要从Object说起了。Object虽然是个对象,但是实际存储时是在当前文档里打平存储的。如上那个例子,如果只有一个user,那么在真实索引中实际上是下面这样的
{
"user.first" : "John",
"user.last" : "Smith"
}
而如果是个list,那么就成了
{
"user.first" : ["John","Alice"],
"user.last" : ["Smith","White"]
}
因为建索引时打平,因此检索时ES就无法知道到底是John Smith还是John White了。因此引入了Nested结构。
Nested将list里的每个doc单独变成子文档进行存储,因此在查询时就可以知道具体的结构信息了。
Nested因为是单独的子文档存储,因此在使用时,直接用 a.b.c 是无法访问的,需要将其套在nested查询里。除此之外,和其他的查询并无差异。
Nested案例:
PUT /my_index_01
{
"mappings" : {
"properties" : {
"my_object" : {
"type" : "nested"
}
}
}
}
PUT /my_index_01/_doc/1
{
"my_object" : [
{"name": "blue", "count": 10},
{"name": "red", "count": 1},
{"name": "yellow", "count": 20}
]
}
# Nested查询
GET /my_index_01/_search
{
"query": {
"nested" : {
"path" : "my_object",
"query" : {
"bool" : {
"must" : [
{ "match" : {"my_object.name" : "blue"} },
{ "range" : {"my_object.count" : {"gt" : 5}} }
]
}
},
"score_mode" : "avg"
}
}
}