Elasticsearch之停用词
前提
什么是倒排索引?
Elasticsearch之分词器的作用
Elasticsearch之分词器的工作流程
Elasticsearch的停用词
1、有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响。
2、英文
a、an、the、of
3、中文
的、了、着、是 、标点符号等
4、文本经过分词之后,停用词通常被过滤掉,不会被进行索引。
5、在检索的时候,用户的查询中如果含有停用词,检索系统也会将其过滤掉(因为用户输入的查询字符串也要进行分词处理)。
6、排除停用词可以加快建立索引的速度,减小索引库文件的大小。
7、英文停用词
8、中文停用词
http://www.ranks.nl/stopwords/chinese-stopwords
后续博客
Elasticsearch之中文分词器
作者:大数据和人工智能躺过的坑
出处:http://www.cnblogs.com/zlslch/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接,否则保留追究法律责任的权利。
如果您认为这篇文章还不错或者有所收获,您可以通过右边的“打赏”功能 打赏我一杯咖啡【物质支持】,也可以点击右下角的【好文要顶】按钮【精神支持】,因为这两种支持都是我继续写作,分享的最大动力!