版本开发背景
整个项目是基于前辈学长们的开发基础之上继续开发的,所以alpha版本全部都是建立在学长们的成果之上进行的。所以受限于老版本代码的缺陷,alpha版本中的没有做出革命性的更新,而更多的是完成修补改进的事情。
新增功能
- 新增从特定网站获取关键词的功能
- 新增针对word文件的处理功能
- 更换核实的分词器,新增翻译关键词功能,并添加进列表
- 新增加了MD5加密算法,用于调用百度翻译的api
- 新增solr的处理连接模块,实现与用户的对接
- 新增html正文提取函数,可以提取出格式标准的正文
修复缺陷
- 修复了其第二次获取关键词会统计到上次的关键词的bug
- 修复了其某些网站获取的关键词不能存储的bug
- 修复了某些网站不能正常获取作者的信息的bug
- 解决数据处理模块代码运行完全没效果的问题
- 解决无法从数据库中存在的word文件读入的问题
- 解决vs 2012无法引用微软处理office组件的问题
- 优化了翻译全文卡顿时间过长的的问题
- 修复了旧版本中翻译模块不能使用的问题
- 修复了程序ip地址错误引用的问题
- 修复了数据重复处理的问题
- 修复了html中引用正则表达式错误导致崩溃的bug
- 修复原本代码中try catch不足导致的各种崩溃
- 修复了连接数据库时未释放连接程序导致无法连接的bug
- 修复了爬虫模块运行崩溃的问题
- 修复了爬虫模块部分功能性按钮错乱的问题
- 修复了爬虫模块长时间运行没有结果的问题
- 优化了部分爬虫代码的算法,提升了部分效率
对于于运行环境的要求
完整的系统由两个程序组成,分别运行在两个服务器上,其中爬虫部分的程序必须在服务器上运行,数据处理部分的代码可以在vs 2013及以上的版本编译运行
安装使用
程序不需要安装,登录服务器即可使用,最终的数据获取是通过约定的solr服务器获取的
系统已知的问题以及限制
虽然我们在旧的版本的基础之上做了很多的改进,但是仍然首先于整体的框架,很多功能不能实现,所以我们打算在beta版本重新组合现有模块,并且分块重新运用,所以在alpha版本中没有过于关注细节(后面也会被抛弃)存在限制如下:
- 在html文件处理中,很难找到一个适合所有网站的通用式算法
- 对于未预先考虑到的网站,获取关键词作者等信息准确度难以保障
- 仍然存在bug:提取无用关键词的问题 未解决
- 仍然有bug: 连续处理文件时间过长 会导致程序崩溃的问题:待修复
- 数据处理服务器硬盘不够,难以保证所需开发环境的正常安装使用
- 问答对模块仍然没有,会在beta版本中实现
- 数据库自动增量导入solr的功能还未完全实现
- 爬虫仍然很难正常爬取word文件,在beta版本重构修复
- 数据爬虫对于已访问过的网站没有检测功能,重复运行将导致重复的内容添加进数据库,受限于框架,将在beta版本修复
- 爬虫没有对于cookie的使用,所以任何需要认证的网站无法正常访问下载