版本开发背景

整个项目是基于前辈学长们的开发基础之上继续开发的,所以alpha版本全部都是建立在学长们的成果之上进行的。所以受限于老版本代码的缺陷,alpha版本中的没有做出革命性的更新,而更多的是完成修补改进的事情。

新增功能

  1. 新增从特定网站获取关键词的功能
  2. 新增针对word文件的处理功能
  3. 更换核实的分词器,新增翻译关键词功能,并添加进列表
  4. 新增加了MD5加密算法,用于调用百度翻译的api
  5. 新增solr的处理连接模块,实现与用户的对接
  6. 新增html正文提取函数,可以提取出格式标准的正文

修复缺陷

  1. 修复了其第二次获取关键词会统计到上次的关键词的bug
  2. 修复了其某些网站获取的关键词不能存储的bug
  3. 修复了某些网站不能正常获取作者的信息的bug
  4. 解决数据处理模块代码运行完全没效果的问题
  5. 解决无法从数据库中存在的word文件读入的问题
  6. 解决vs 2012无法引用微软处理office组件的问题
  7. 优化了翻译全文卡顿时间过长的的问题
  8. 修复了旧版本中翻译模块不能使用的问题
  9. 修复了程序ip地址错误引用的问题
  10. 修复了数据重复处理的问题
  11. 修复了html中引用正则表达式错误导致崩溃的bug
  12. 修复原本代码中try catch不足导致的各种崩溃
  13. 修复了连接数据库时未释放连接程序导致无法连接的bug
  14. 修复了爬虫模块运行崩溃的问题
  15. 修复了爬虫模块部分功能性按钮错乱的问题
  16. 修复了爬虫模块长时间运行没有结果的问题
  17. 优化了部分爬虫代码的算法,提升了部分效率

对于于运行环境的要求

完整的系统由两个程序组成,分别运行在两个服务器上,其中爬虫部分的程序必须在服务器上运行,数据处理部分的代码可以在vs 2013及以上的版本编译运行

安装使用

程序不需要安装,登录服务器即可使用,最终的数据获取是通过约定的solr服务器获取的

系统已知的问题以及限制

虽然我们在旧的版本的基础之上做了很多的改进,但是仍然首先于整体的框架,很多功能不能实现,所以我们打算在beta版本重新组合现有模块,并且分块重新运用,所以在alpha版本中没有过于关注细节(后面也会被抛弃)存在限制如下:

  1. 在html文件处理中,很难找到一个适合所有网站的通用式算法
  2. 对于未预先考虑到的网站,获取关键词作者等信息准确度难以保障
  3. 仍然存在bug:提取无用关键词的问题 未解决
  4. 仍然有bug: 连续处理文件时间过长 会导致程序崩溃的问题:待修复
  5. 数据处理服务器硬盘不够,难以保证所需开发环境的正常安装使用
  6. 问答对模块仍然没有,会在beta版本中实现
  7. 数据库自动增量导入solr的功能还未完全实现
  8. 爬虫仍然很难正常爬取word文件,在beta版本重构修复
  9. 数据爬虫对于已访问过的网站没有检测功能,重复运行将导致重复的内容添加进数据库,受限于框架,将在beta版本修复
  10. 爬虫没有对于cookie的使用,所以任何需要认证的网站无法正常访问下载

发布地址