1、默认的分词器 standard standard tokenizer:以单词边界进行切分standard token filter:什么都不做lowercase token filter:将所有字母转换为小写stop token filer(默认被禁用):移除停用词,比如a the it等等 2 Read More
posted @ 2018-03-11 22:02 秦先生的客栈 Views(638) Comments(0) Diggs(0) Edit
一个field的设置是不能被修改的,如果要修改一个Field,那么应该重新按照新的mapping,建立一个index,然后将数据批量查询出来,重新用bulk api写入index中 批量查询的时候,建议采用scroll api,并且采用多线程并发的方式来reindex数据,每次scoll就查询指定日 Read More
posted @ 2018-03-11 21:58 秦先生的客栈 Views(312) Comments(0) Diggs(0) Edit
停用词主要是为了提升性能与精度。从早期的信息检索到如今,我们已习惯于磁盘空间和内存被限制为很小一部分,所以 必须使你的索引尽可能小。 每个字节都意味着巨大的性能提升。 词干提取的重要性不仅是因为它让搜索的内容更广泛、让检索的能力更深入,还因为它是压缩索引空间的工具。一种最简单的减少索引大小的方法就是 Read More
posted @ 2018-03-11 21:50 秦先生的客栈 Views(1057) Comments(0) Diggs(0) Edit