摘要: ElasticSearch 2.4版本支持Java正则表达式查询,但是,在对大段的文本(Text Block)进行挖掘之前,必须了解正则表达式查询的特殊之处。由于分析器会对文本字段进行分词,移除停用词,小写转换等操作,最终存储在倒转索引中的是小写的标记流(Token Stream),默认情况下,每一个标记是一个分词(Term),这无法满足正则表达式查询的一般要求,这就是说,正则表达式查询的是原始文本,需要注意的是,ElasticSearch引擎都是从原始文本的第一个字符开始执行正则表达式匹配。 在ElasticSearch 2.4版本中启用正则表达式之前,需要考虑两个问题:分词吗?大小写敏感吗? 阅读全文
posted @ 2017-05-10 09:26 悦光阴 阅读(13862) 评论(3) 推荐(7) 编辑