爬虫测试:

由于爬虫是整个系统的数据来源,十分的重要,但是由于引用了jar包并且运行复杂,这里主要做功能性测试,通过增加seed,运行爬虫,可以在后台控制台看到日志的不断刷新以及数据库条目的不断增加,证明了爬虫的正确性,对于word、pdf等特殊格式的文件,同样只做功能性测试。结果令人满意

模块单元测试:

这一部分主要包含三个部分,我们针对三个模块分别写了单元测试报告,如下:

数据库连接部分测试:

https://github.com/LongWerLingShi/DataObtainingAndHandling/blob/DataBase/%E6%95%B0%E6%8D%AE%E5%BA%93Solr%E6%B5%8B%E8%AF%95%E6%96%87%E6%A1%A3.docx

pdf、html处理测试:

http://www.cnblogs.com/thereisnoname/p/6250789.html

word以及分词器测试:

http://www.cnblogs.com/R-81/p/6250967.html

前端测试:

这里前端测试主要数对照前期功能设计进行测试

由于前端较难实现单元测试,所以这里主要进行功能性测试,在典型场景下,对比预期效果与实际效果之间进行对比

测试场景包含:

  1. 账户登入登出
  2. 爬虫启动与停止
  3. 爬虫seed网址增加删除
  4. 爬虫多线程运行
  5. 数据处理启动与停止
  6. 处理进度实时获取
  7. 爬虫爬取进度实时获取

测试矩阵:

因为程序前端是网页,所以就涉及网页对于不同版本浏览器不同系统的测试,受限与实际条件,我们做了如下测试:

系统 浏览器 结果
win10 火狐 正常
win10 chrome 正常
win10 QQ 正常
win10 IE 正常
win10 EDGE 正常
win server 搜狗 正常
win server IE 正常

SOLR测试:

程序的最终目的还是要提供数据给前端组还用于学霸网站的展示,所以我们也对于solr上传功能进行了测试:

通过访问solr管理网页:http://10.2.28.82:8080/solr/#/collection1/query

执行查询,可以看到最终节点数:

并且随着数据处理的进行,这个节点在不断增加,证明solr数据上传的正确性

测试bug汇总:

  1. 爬虫后台程序在服务器上无法正常启用
  2. 数据处理程序不可运行过多线程,否则数据库写入时会抛出异常
  3. 网页爬虫关键词相关功能无用