摘要:
Python简单且强大,能够快速上手,开发效率高,而且社区活跃。 Tornado框架支持异步,适合做comet应用,简单轻量,学习成本低,有Facebook的社区支持。可以跟浏览器建议长连接,便于实时推送Feed和通知。 最开始知乎的开发把基本把团队的经理全放在产品功能的开发上,但是初期投入实践时很 阅读全文
摘要:
依赖jar包:iText-2.1.7.jar、iTextAsian.jar、itext-rtf-2.1.7.jar 代码如下: 参考文章:https://www.cnblogs.com/wl2017/p/10639002.html 阅读全文
摘要:
完成了关键字的提取,自动分类,内容的查重,下面就是对生成PDF格式的检测报告 代码如下: 参考文章:https://home.cnblogs.com/u/wl2017/ 阅读全文
摘要:
完成了任务2,实现了对词条的自动分类以及对词条关键字的提取,这次就是开始任务3对百度百科进行全文检索,判断抄袭语句,以及全文相似比。 思路:对任务2中提取的关键字为准对爬取百度百科,然后对比词条解释和爬取的内容进行比对,相似度大于80%的就将抄袭语句插入数据库,然后再写入PDF,其中抄袭的语句用红色 阅读全文
摘要:
上次完成了关键字的提取,这一次就实现自动分类 在实现自动分类的时候,我在晚上找了很多关于自动分类的方法,找了关于spark,关于python的,java的等等都比较乱 然后我又在网上找了基于python的机器学习,可以自动对内容进行自动分类,代码如下: 参考教程:https://morvanzhou 阅读全文
摘要:
BeansDB主要的特点是支持海量KV数据库——相比Redis这种支持几十个G到几百个G的 内存KV数据库,BeansDB可以支持到上百T的数据。另外BeansDB最大的好处就是运维很简单,性能、可用性、扩容都很好,也实现了最终一致性。 跟豆瓣其他工程团队一样,平台部也强制大家做code revie 阅读全文
摘要:
上次完成了功能描述(1)将数据导入到数据库 所以这一次,我准备开始第二个功能:将手册涉及的热词自动分类展示,将每个热词自 动创建关键字、模糊检索两个字段便于检索 起初老师建议的是用spark完成,由于一直在windows没配置好spark环境,在Ubuntu中又太卡,所以我决定用python实现此功 阅读全文
摘要:
正式开发的第一天 将老师给的word文档的内容写进数据,如何写进数据库呢? 首先想到的是用java读取文件,将文件按照一定规则划分,并写入数据库,当然这是一种方法,大二的时候也做过类似的训练。 但是这一次我用的是python(或许是因为最近在学python,想要试一试),众所周知,python大部分 阅读全文
摘要:
作业内容: 1、 项目名称:信息技术手册查重错误比对分析 2、 功能概述: (1) 数据导入:要求将提供的信息技术手册文档倒入数据库中 (2) 数据分类:将手册涉及的热词自动分类展示,将每个热词自 动创建关键字、模糊检索两个字段便于检索; (3)数据查重错误分析报告: 按照提供的维普论文检测报告的形 阅读全文
摘要:
微博绝对是现在使用用户数很大的了,在现在生活中基本处处都可以看到有人在看微博。 随着应用规模的不断增长,原始的微博架构已经不能满足现在的功能需求了,于是这一篇博客,就“新浪微博平台架构的演变”来探讨架构的性质。 第一代架构为LAMP架构,数据库使用的是MyIsam,后台用的是php,缓存为Memca 阅读全文