Ayeah~夭夭 - 博客园

2019年4月15日

摘要： Python简单且强大，能够快速上手，开发效率高，而且社区活跃。 Tornado框架支持异步，适合做comet应用，简单轻量，学习成本低，有Facebook的社区支持。可以跟浏览器建议长连接，便于实时推送Feed和通知。最开始知乎的开发把基本把团队的经理全放在产品功能的开发上，但是初期投入实践时很阅读全文

posted @ 2019-04-15 09:30 Ayeah~夭夭阅读(162) 评论(0) 推荐(0) 编辑

2019年4月7日

java生成PDF文档

摘要：依赖jar包：iText-2.1.7.jar、iTextAsian.jar、itext-rtf-2.1.7.jar 代码如下：参考文章：https://www.cnblogs.com/wl2017/p/10639002.html 阅读全文

posted @ 2019-04-07 17:54 Ayeah~夭夭阅读(1137) 评论(0) 推荐(0) 编辑

开发记录5

摘要：完成了关键字的提取，自动分类，内容的查重，下面就是对生成PDF格式的检测报告代码如下：参考文章：https://home.cnblogs.com/u/wl2017/ 阅读全文

posted @ 2019-04-07 17:44 Ayeah~夭夭阅读(121) 评论(0) 推荐(0) 编辑

开发记录4

摘要：完成了任务2，实现了对词条的自动分类以及对词条关键字的提取，这次就是开始任务3对百度百科进行全文检索，判断抄袭语句，以及全文相似比。思路：对任务2中提取的关键字为准对爬取百度百科，然后对比词条解释和爬取的内容进行比对，相似度大于80%的就将抄袭语句插入数据库，然后再写入PDF，其中抄袭的语句用红色阅读全文

posted @ 2019-04-07 17:39 Ayeah~夭夭阅读(109) 评论(0) 推荐(0) 编辑

开发记录3

摘要：上次完成了关键字的提取，这一次就实现自动分类在实现自动分类的时候，我在晚上找了很多关于自动分类的方法，找了关于spark，关于python的，java的等等都比较乱然后我又在网上找了基于python的机器学习，可以自动对内容进行自动分类，代码如下：参考教程：https://morvanzhou 阅读全文

posted @ 2019-04-07 17:27 Ayeah~夭夭阅读(146) 评论(0) 推荐(0) 编辑

豆瓣的基础架构读后感

摘要： BeansDB主要的特点是支持海量KV数据库——相比Redis这种支持几十个G到几百个G的内存KV数据库，BeansDB可以支持到上百T的数据。另外BeansDB最大的好处就是运维很简单，性能、可用性、扩容都很好，也实现了最终一致性。跟豆瓣其他工程团队一样，平台部也强制大家做code revie 阅读全文

posted @ 2019-04-07 09:08 Ayeah~夭夭阅读(119) 评论(0) 推荐(0) 编辑

2019年4月2日

开发记录2

摘要：上次完成了功能描述（1）将数据导入到数据库所以这一次，我准备开始第二个功能：将手册涉及的热词自动分类展示，将每个热词自动创建关键字、模糊检索两个字段便于检索起初老师建议的是用spark完成，由于一直在windows没配置好spark环境，在Ubuntu中又太卡，所以我决定用python实现此功阅读全文

posted @ 2019-04-02 23:40 Ayeah~夭夭阅读(135) 评论(0) 推荐(0) 编辑

开发记录1

摘要：正式开发的第一天将老师给的word文档的内容写进数据，如何写进数据库呢？首先想到的是用java读取文件，将文件按照一定规则划分，并写入数据库，当然这是一种方法，大二的时候也做过类似的训练。但是这一次我用的是python（或许是因为最近在学python，想要试一试），众所周知，python大部分阅读全文

posted @ 2019-04-02 23:21 Ayeah~夭夭阅读(165) 评论(0) 推荐(0) 编辑

大数据技术大作业1

摘要：作业内容： 1、项目名称：信息技术手册查重错误比对分析 2、功能概述：（1）数据导入：要求将提供的信息技术手册文档倒入数据库中（2）数据分类：将手册涉及的热词自动分类展示，将每个热词自动创建关键字、模糊检索两个字段便于检索；（3）数据查重错误分析报告：按照提供的维普论文检测报告的形阅读全文

posted @ 2019-04-02 23:04 Ayeah~夭夭阅读(767) 评论(0) 推荐(0) 编辑

2019年3月31日

新浪微博平台架构读后感

摘要：微博绝对是现在使用用户数很大的了，在现在生活中基本处处都可以看到有人在看微博。随着应用规模的不断增长，原始的微博架构已经不能满足现在的功能需求了，于是这一篇博客，就“新浪微博平台架构的演变”来探讨架构的性质。第一代架构为LAMP架构，数据库使用的是MyIsam，后台用的是php，缓存为Memca 阅读全文

posted @ 2019-03-31 00:52 Ayeah~夭夭阅读(153) 评论(0) 推荐(0) 编辑

姚雅丽~yaoyao

公告