摘要: 上一章看了代码实现,算是搞明白了各参数的意义,现在开始测试,为方便以ik分词示例(对elasticsearch支持较好,测试操作简单) 首先建index,自定义 analysis ik分词用 ik_smart 添加length filter(分词后,只要词长度3个以上的词,这个后面会说明),添加mi 阅读全文
posted @ 2017-08-27 18:47 cclient 阅读(1059) 评论(0) 推荐(0) 编辑
摘要: 需求作相似文本查询 爬虫作页面去重,会用到simhash,第一个想到的是用simhash算法 但在现有数据集(elasticsearch集群)上用simhash,成本高,simhash值还好计算,不论是外部api还是实现一套es token filter都很容易实现.最大的难点在于查询,及相似度计算 阅读全文
posted @ 2017-08-27 18:12 cclient 阅读(1438) 评论(0) 推荐(0) 编辑