摘要: Lucene中有两种分页查询方式 1、一次查询出大量数据,然后根据页码定位是哪个文档,其实就是暴力获取了 2、通过调用searchAfter来实现 我们都知道collect是lucene中对搜索到的文档进行收集和排序过程,searchAfter也是通过一个收集器来控制的,叫PagingTopScor 阅读全文
posted @ 2018-06-04 16:22 王南辉 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 字符串转数字,全为数字不包含异常的字符,昨天去面试了,然后问了一个一个简单的东西就是下面这个,写起来没有难度,但是好多细节没注意到,来回改什么的也写了好几遍,今天就记录一下 public static double parseString(String str) { int count = '0';//忘记了ASCII码数字之间相差多少 用'0' - 0 算之间差多少 然后每次用... 阅读全文
posted @ 2018-05-30 10:16 王南辉 阅读(7678) 评论(0) 推荐(0) 编辑
摘要: 首先下载 es6.0源码 ,另外下载一个es6.0的发行版本 在git上虽然显示是6.0 其实是6.0.2的版本所以在后续的安装中会跑一个异常 下载完之后 可以直接通过eclipse的gradle插件导入项目或者idea的gradle导入,当然也可以使用 gradle的命令 gradle eclip 阅读全文
posted @ 2018-05-24 23:08 王南辉 阅读(2318) 评论(0) 推荐(0) 编辑
摘要: 一直做搜索,用的ik,但是用ik的话只能按照ik里面的字典去做分词不太满足自己的场景,但每个分词的原始属性你却没办法打上标签,于是就想自己写一个字典树用最长匹配规则取分词,然后封装自己的标签属性,我也不知道这样玩对不对,反正是写了一个,也不知道自己写的算不算字典树,自己封的 哈哈 ,自己是个小白不知 阅读全文
posted @ 2017-12-20 09:50 王南辉 阅读(388) 评论(1) 推荐(0) 编辑
摘要: 最近在搞地理编码,用户输入一串关键字,要识别到行政区划,道路,社区,小区名,甚至门牌号,就我一个一个人要做成百度高德那样的效果(然后就硬着头皮做了,反正难度挺大,做了两个月大体上差不多了,但还是差别很大),想来想去还是得在分词这儿入手,之前写了个字典树,用最长匹配来识别,可能我写的有bug吧反正效果 阅读全文
posted @ 2017-12-17 12:38 王南辉 阅读(1039) 评论(0) 推荐(1) 编辑
摘要: 自定义分词器其实就是重写Tokenizer里面的incrementToken 和Analyzer里面的 createComponents方法,也可以自定义一个attrbitue 在add方法中添加Attribute,然后用getAttrbiute获取,借此可以封装自己想要的属性属package co 阅读全文
posted @ 2017-12-02 19:57 王南辉 阅读(324) 评论(0) 推荐(0) 编辑
摘要: 在centos和redhat上安装docker 64-bit 系统 kernel 3.10+ 1.检查内核版本,返回的值大于3.10即可。 $ uname -r 2.使用 sudo 或 root 权限的用户登入终端。 3.确保yum是最新的 $ yum update 4.添加 yum 仓库 $ te 阅读全文
posted @ 2017-11-19 21:34 王南辉 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 下载lucene的go版本,应该是支持到lucene4.9版本的 在go的安装目录下打开git的命令窗口输入 go get -u github.com/balzaczyy/golucene 下载完成后就可以使用了 lucene 的go版本功能没有java版的全,只提供基础的搜索,可能是开源出来的东西 阅读全文
posted @ 2017-10-18 15:22 王南辉 阅读(1332) 评论(0) 推荐(0) 编辑
摘要: 当给定一个Point(x,y)和距离时如何计算四角点的坐标 需要引入 spatial4j 包 阅读全文
posted @ 2017-06-21 15:00 王南辉 阅读(1247) 评论(0) 推荐(0) 编辑
摘要: 今天用了lukeall里面的一个功能optimize也就是索引优化, 发现有花时间比较长但是优化结果比较好, 索引里面的所有段文件都merge到一个段文件里去了, 于是自己就试了一下,虽然没有lukeall优化的好, 但起码比之前几百个碎文件要好的多了下面是代码,lucene用的是4.8 当然也可以 阅读全文
posted @ 2017-06-17 11:41 王南辉 阅读(1097) 评论(0) 推荐(0) 编辑