| | | | |

|

Alpha版本发布说明

版本开发背景

整个项目是基于前辈学长们的开发基础之上继续开发的，所以alpha版本全部都是建立在学长们的成果之上进行的。所以受限于老版本代码的缺陷，alpha版本中的没有做出革命性的更新，而更多的是完成修补改进的事情。

新增功能

新增从特定网站获取关键词的功能
新增针对word文件的处理功能
更换核实的分词器，新增翻译关键词功能，并添加进列表
新增加了MD5加密算法，用于调用百度翻译的api
新增solr的处理连接模块，实现与用户的对接
新增html正文提取函数，可以提取出格式标准的正文

修复缺陷

修复了其第二次获取关键词会统计到上次的关键词的bug
修复了其某些网站获取的关键词不能存储的bug
修复了某些网站不能正常获取作者的信息的bug
解决数据处理模块代码运行完全没效果的问题
解决无法从数据库中存在的word文件读入的问题
解决vs 2012无法引用微软处理office组件的问题
优化了翻译全文卡顿时间过长的的问题
修复了旧版本中翻译模块不能使用的问题
修复了程序ip地址错误引用的问题
修复了数据重复处理的问题
修复了html中引用正则表达式错误导致崩溃的bug
修复原本代码中try catch不足导致的各种崩溃
修复了连接数据库时未释放连接程序导致无法连接的bug
修复了爬虫模块运行崩溃的问题
修复了爬虫模块部分功能性按钮错乱的问题
修复了爬虫模块长时间运行没有结果的问题
优化了部分爬虫代码的算法，提升了部分效率

对于于运行环境的要求

完整的系统由两个程序组成，分别运行在两个服务器上，其中爬虫部分的程序必须在服务器上运行，数据处理部分的代码可以在vs 2013及以上的版本编译运行

安装使用

程序不需要安装，登录服务器即可使用，最终的数据获取是通过约定的solr服务器获取的

系统已知的问题以及限制

虽然我们在旧的版本的基础之上做了很多的改进，但是仍然首先于整体的框架，很多功能不能实现，所以我们打算在beta版本重新组合现有模块，并且分块重新运用，所以在alpha版本中没有过于关注细节（后面也会被抛弃）存在限制如下：

在html文件处理中，很难找到一个适合所有网站的通用式算法
对于未预先考虑到的网站，获取关键词作者等信息准确度难以保障
仍然存在bug：提取无用关键词的问题未解决
仍然有bug: 连续处理文件时间过长会导致程序崩溃的问题：待修复
数据处理服务器硬盘不够，难以保证所需开发环境的正常安装使用
问答对模块仍然没有，会在beta版本中实现
数据库自动增量导入solr的功能还未完全实现
爬虫仍然很难正常爬取word文件，在beta版本重构修复
数据爬虫对于已访问过的网站没有检测功能，重复运行将导致重复的内容添加进数据库，受限于框架，将在beta版本修复
爬虫没有对于cookie的使用，所以任何需要认证的网站无法正常访问下载

发布地址

发表于 2016-11-16 17:38 龙威零式团队阅读(264) 评论(1) 编辑收藏举报

刷新页面返回顶部

公告