2018 年 3月 11 日随笔档案 - 秦先生的客栈

2018年3月11日

1、默认的分词器 standard standard tokenizer：以单词边界进行切分standard token filter：什么都不做lowercase token filter：将所有字母转换为小写stop token filer（默认被禁用）：移除停用词，比如a the it等等 2 Read More

posted @ 2018-03-11 22:02 秦先生的客栈 Views(651) Comments(0) Diggs(0) Edit

java应用零停机，时间索引重建（reindex）

一个field的设置是不能被修改的，如果要修改一个Field，那么应该重新按照新的mapping，建立一个index，然后将数据批量查询出来，重新用bulk api写入index中批量查询的时候，建议采用scroll api，并且采用多线程并发的方式来reindex数据，每次scoll就查询指定日 Read More

posted @ 2018-03-11 21:58 秦先生的客栈 Views(315) Comments(0) Diggs(0) Edit

es中的停用词

停用词主要是为了提升性能与精度。从早期的信息检索到如今，我们已习惯于磁盘空间和内存被限制为很小一部分，所以必须使你的索引尽可能小。每个字节都意味着巨大的性能提升。词干提取的重要性不仅是因为它让搜索的内容更广泛、让检索的能力更深入，还因为它是压缩索引空间的工具。一种最简单的减少索引大小的方法就是 Read More

posted @ 2018-03-11 21:50 秦先生的客栈 Views(1076) Comments(0) Diggs(0) Edit

秦先生的客栈

欢迎您来到我的客栈。博客内容仅供技术交流！

公告