摘要:
依赖jar包:iText-2.1.7.jar、iTextAsian.jar、itext-rtf-2.1.7.jar 代码如下: 参考文章:https://www.cnblogs.com/wl2017/p/10639002.html 阅读全文
摘要:
完成了关键字的提取,自动分类,内容的查重,下面就是对生成PDF格式的检测报告 代码如下: 参考文章:https://home.cnblogs.com/u/wl2017/ 阅读全文
摘要:
完成了任务2,实现了对词条的自动分类以及对词条关键字的提取,这次就是开始任务3对百度百科进行全文检索,判断抄袭语句,以及全文相似比。 思路:对任务2中提取的关键字为准对爬取百度百科,然后对比词条解释和爬取的内容进行比对,相似度大于80%的就将抄袭语句插入数据库,然后再写入PDF,其中抄袭的语句用红色 阅读全文
摘要:
上次完成了关键字的提取,这一次就实现自动分类 在实现自动分类的时候,我在晚上找了很多关于自动分类的方法,找了关于spark,关于python的,java的等等都比较乱 然后我又在网上找了基于python的机器学习,可以自动对内容进行自动分类,代码如下: 参考教程:https://morvanzhou 阅读全文
摘要:
BeansDB主要的特点是支持海量KV数据库——相比Redis这种支持几十个G到几百个G的 内存KV数据库,BeansDB可以支持到上百T的数据。另外BeansDB最大的好处就是运维很简单,性能、可用性、扩容都很好,也实现了最终一致性。 跟豆瓣其他工程团队一样,平台部也强制大家做code revie 阅读全文