打赏

Elasticsearch之停用词

 

 前提

什么是倒排索引?

Elasticsearch之分词器的作用

Elasticsearch之分词器的工作流程

 

 

 

 

 

 

 

Elasticsearch的停用词

  1、有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响。

  2、英文

    a、an、the、of

  3、中文

    的、了、着、是 、标点符号等

  4、文本经过分词之后,停用词通常被过滤掉,不会被进行索引。

  5、在检索的时候,用户的查询中如果含有停用词,检索系统也会将其过滤掉(因为用户输入的查询字符串也要进行分词处理)。

  6、排除停用词可以加快建立索引的速度,减小索引库文件的大小。

  7、英文停用词

         http://www.ranks.nl/stopwords

  8、中文停用词

          http://www.ranks.nl/stopwords/chinese-stopwords

 

 

 

 

  

 

 

  后续博客

Elasticsearch之中文分词器

 

posted @ 2017-02-24 20:45  大数据和AI躺过的坑  阅读(8432)  评论(0编辑  收藏  举报