2019 年 4月 7 日随笔档案 - Ayeah~夭夭

2019年4月7日

摘要：依赖jar包：iText-2.1.7.jar、iTextAsian.jar、itext-rtf-2.1.7.jar 代码如下：参考文章：https://www.cnblogs.com/wl2017/p/10639002.html 阅读全文

posted @ 2019-04-07 17:54 Ayeah~夭夭阅读(1140) 评论(0) 推荐(0) 编辑

开发记录5

摘要：完成了关键字的提取，自动分类，内容的查重，下面就是对生成PDF格式的检测报告代码如下：参考文章：https://home.cnblogs.com/u/wl2017/ 阅读全文

posted @ 2019-04-07 17:44 Ayeah~夭夭阅读(122) 评论(0) 推荐(0) 编辑

开发记录4

摘要：完成了任务2，实现了对词条的自动分类以及对词条关键字的提取，这次就是开始任务3对百度百科进行全文检索，判断抄袭语句，以及全文相似比。思路：对任务2中提取的关键字为准对爬取百度百科，然后对比词条解释和爬取的内容进行比对，相似度大于80%的就将抄袭语句插入数据库，然后再写入PDF，其中抄袭的语句用红色阅读全文

posted @ 2019-04-07 17:39 Ayeah~夭夭阅读(110) 评论(0) 推荐(0) 编辑

开发记录3

摘要：上次完成了关键字的提取，这一次就实现自动分类在实现自动分类的时候，我在晚上找了很多关于自动分类的方法，找了关于spark，关于python的，java的等等都比较乱然后我又在网上找了基于python的机器学习，可以自动对内容进行自动分类，代码如下：参考教程：https://morvanzhou 阅读全文

posted @ 2019-04-07 17:27 Ayeah~夭夭阅读(147) 评论(0) 推荐(0) 编辑

豆瓣的基础架构读后感

摘要： BeansDB主要的特点是支持海量KV数据库——相比Redis这种支持几十个G到几百个G的内存KV数据库，BeansDB可以支持到上百T的数据。另外BeansDB最大的好处就是运维很简单，性能、可用性、扩容都很好，也实现了最终一致性。跟豆瓣其他工程团队一样，平台部也强制大家做code revie 阅读全文

posted @ 2019-04-07 09:08 Ayeah~夭夭阅读(122) 评论(0) 推荐(0) 编辑

姚雅丽~yaoyao

公告