Elasticsearch 所有内置分词器介绍(6)

一.概述

  Tokenizer分词器接收字符流(es的text类型),将其分解为单个term(通常是单个单词), 然后输出标记流。分词器除了分解,还负责记录以下内容:

    1)记录每个单词(term)的顺序或位置(用于”phrase短语“和单词邻近性查询)

    2)term原始单词的开始和结束字符偏移量(使用 ”highlighting 高亮“ 搜索显示)

    3)token类型,生成每个term的分类。例如:字母、数字。

  Elasticsearch有许多内置的Tokenizer,可用于构建自定义的Tokenizer。Tokenizer有三种分类:

    1)面向单词的分词器,这种分析器是将文本拆分为一个个的单词。

    2)部分单词的分词器,这种分析器是将文本拆分为任意组合的字母(通过配置1~n个)。

    3)结构化文本的分词器,该类型分词器通常与结构化文本一起使用,例如:邮件地址、邮政编码。

  分析器与分词器关系总结:

    前面章节有讲到一个分析器的组合包含:一个Tokenizer分词器(必需),0或多个charactcr filter、 0或多个token filter。

    对于Elasticsearch内置的许多分析器和分词器,二者的名称许多都一样。如: Standard分析器和Standard分词器,它们之间的关系是Standard分析器包含了一个Standard分词器。

    对于分析器与分词器,可以直接使用内置的,也都可以是创建自定义的。

    

二. 面向单词的分词器  

  2.1 Standard Tokenizerc(标准分词器)

    Standard分析器包含了Standard 分词器,这里不再举例,参考:Elasticsearch 所有内置分析器介绍(5) 

  2.2 Letter Tokenizer(字母分词器)

    分词规则是:遇到字符时(如空格、下划线等)拆分。合适欧洲语言,但对于一些亚洲语言来说单词是不用空格分隔。

POST _analyze
{
  "tokenizer": "letter",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

    分词结果:[ The, QUICK, Brown, Foxes, jumped, over, the, lazy, dog, s, bone ]

  2.3 Lowercase Tokenizer(小写分词器)

    分词规则与Letter Tokenizer相似,再转为小写的分词。功能上是 Letter Tokenizer与小写的token filter相结合,但它的效益更高。

POST _analyze
{
  "tokenizer": "lowercase",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

    分词结果:[ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

  2.4 Whitespace Tokenizer (空白分词器)

    Whitespace 分析器包含了Whitespace 分词器,这里不再举例,参考:Elasticsearch 所有内置分析器介绍(5) 

  2.5 uax_url_email  Tokenizer

    该分析器与Standard分析器相似,只不过它将url和电子邮件识别为单个term。

POST _analyze
{
  "tokenizer": "uax_url_email",
  "text": "Email me at john.smith@global-international.com"
}

    分词结果:[ Email, me, at, john.smith@global-international.com ]

  2.6 Classic Tokenizer(经典分词器)

    经典分词器是基于语法的分词器,适应于英语文档。该分析器有以下特点:

      1)根据标点符号拆分单词,并删除标点符号。

      2)根据字符拆分的单词,如字符:中划线 -  

      3)它将电子邮件地址和互联网主机名识别为一个term。

POST _analyze
{
  "tokenizer": "classic",
  "text": "john.smith@global-international.com The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

    分词结果:[ john.smith@global-international.com, The, 2, QUICK, Brown, Foxes, jumped, over, the, lazy, dog's, bone ]

    该分词器接受一个参数,max_token_length最大令牌长度。如果令牌超过此长度,则按max_token_length间隔进行拆分。默认值 255

    下面是配置max_token_length长度为5的示例:

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "classic",
          "max_token_length": 5
        }
      }
    }
  }
}

  

POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

    分词结果:[ The, 2, QUICK, Brown, Foxes,  over, the, lazy, dog's, bone ]  丢失了jumped单词,长度为6

 

三.部分单词的分词器

  3.1 N-Gram Tokenizer

  3.2 Edge N-Gram Tokenizer

    二种分词器比较常用,将再下一篇单独篇讲。

 

四.结构化文本的分词器

  4.1 Keyword Tokenizer  (关键字分词器)

    Keyword 分析器包含了Keyword 分词器,这里不再举例,参考:Elasticsearch 所有内置分析器介绍(5) 

 

  4.2 Pattern Tokenizer  (模式分词器)

    Pattern 分析器包含了Pattern 分词器,这里不再举例,参考:Elasticsearch 所有内置分析器介绍(5) 

  

  4.3 Simple Pattern Tokenizer (简单模式分词器)

    simple_pattern  简单模式分词器使用Lucene正则表达式,简单模式分词器对比模式分词器功能有限,但通常比模式分词器分词更快。

    自定义一个简单模式分析,将文本拆分为3位数字的词

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "simple_pattern",
          "pattern": "[0123456789]{3}"
        }
      }
    }
  }
}

  

POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "fd-786-335-514-x"
}

    分词结果:[ 786, 335, 514 ]   

    将文本中拆分为3个数字为一个词,如果文本是:fd-1786-335-514-x   分词结果:[ 178, 335, 514 

    

  4.4 Char Group Tokenizer 

    char_group 分词器可通过要分割的字符进行配置,这通常比运行正则表达式性能更好。

POST _analyze
{
  "tokenizer": {
    "type": "char_group",
    "tokenize_on_chars": [
      "whitespace",
      "-",
      "\n"
    ]
  },
  "text": "The QUICK brown-fox"
}

     分词结果:[The,QUICK,brown,fox ]

 

  4.5 Simple Pattern Split Tokenizer (简单模式拆分 分词器)

    simple_pattern_split  简单模式拆分分词器使用Lucene正则表达式,对比模式分词器功能有限,但通常比模式分词器分词更快。

    自定义一个简单模式拆分分词器,将文本以  _  下划线来拆分

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "simple_pattern_split",
          "pattern": "_"
        }
      }
    }
  }
}

 

POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "fd_786_335_514_x"
}

    分词结果:[ fd,786, 335, 514,x ]    

 

  4.6 Path Tokenizer  (路径分词器)

     path_hierarchy 分词器,将文本以路径分隔符进行分割 ,该分词器接收以下重要参数:

    1) delimiter   设置分隔符字符。默认值为  /

    2) replacement 设置替换字符,默认为delimiter 

    3)skip :跳过令牌的数量。默认为0

    自定义一个路径分析器

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "path_hierarchy",
          "delimiter": "-",
          "replacement": "/",
          "skip": 2
        }
      }
    }
  }
}

  

POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "one-two-three-four-five"
}

    分词结果:[/three, /three/four, /three/four/five]  使用skip跳过了前面二个令牌

 

 

 参考官方资料: Tokenizer reference

posted on 2024-04-24 10:44  花阴偷移  阅读(362)  评论(0编辑  收藏  举报

导航