摘要: 比较两个文本的相似度 这里采用 simHash 算法 ; 分词是 基于 http://hanlp.linrunsoft.com/ 的开源 中文分词包 来实现分词 ; 实现效果图: 直接上源码: https://pan.baidu.com/s/1hr4ymKs kbih 阅读全文
posted @ 2017-12-03 15:06 三目鸟 阅读(18773) 评论(7) 推荐(1) 编辑
摘要: 最近工作中遇到一个需求 多线程先爬取页面 然后将爬取的结果持久化到数据库中 ,一些大文本的内容需要持久化到 xml文件中; 下面是运行后的结果: xml 文件写入结果: 数据库写入结果: 再来张项目结构图: 直接上源码吧; https://pan.baidu.com/s/1i4ScI1Z z2jc 阅读全文
posted @ 2017-12-03 14:25 三目鸟 阅读(2190) 评论(0) 推荐(0) 编辑