爬虫测试:
由于爬虫是整个系统的数据来源,十分的重要,但是由于引用了jar包并且运行复杂,这里主要做功能性测试,通过增加seed,运行爬虫,可以在后台控制台看到日志的不断刷新以及数据库条目的不断增加,证明了爬虫的正确性,对于word、pdf等特殊格式的文件,同样只做功能性测试。结果令人满意
模块单元测试:
这一部分主要包含三个部分,我们针对三个模块分别写了单元测试报告,如下:
数据库连接部分测试:
https://github.com/LongWerLingShi/DataObtainingAndHandling/blob/DataBase/%E6%95%B0%E6%8D%AE%E5%BA%93Solr%E6%B5%8B%E8%AF%95%E6%96%87%E6%A1%A3.docx
pdf、html处理测试:
http://www.cnblogs.com/thereisnoname/p/6250789.html
word以及分词器测试:
http://www.cnblogs.com/R-81/p/6250967.html
前端测试:
这里前端测试主要数对照前期功能设计进行测试
由于前端较难实现单元测试,所以这里主要进行功能性测试,在典型场景下,对比预期效果与实际效果之间进行对比
测试场景包含:
- 账户登入登出
- 爬虫启动与停止
- 爬虫seed网址增加删除
- 爬虫多线程运行
- 数据处理启动与停止
- 处理进度实时获取
- 爬虫爬取进度实时获取
测试矩阵:
因为程序前端是网页,所以就涉及网页对于不同版本浏览器不同系统的测试,受限与实际条件,我们做了如下测试:
系统 | 浏览器 | 结果 |
win10 | 火狐 | 正常 |
win10 | chrome | 正常 |
win10 | 正常 | |
win10 | IE | 正常 |
win10 | EDGE | 正常 |
win server | 搜狗 | 正常 |
win server | IE | 正常 |
SOLR测试:
程序的最终目的还是要提供数据给前端组还用于学霸网站的展示,所以我们也对于solr上传功能进行了测试:
通过访问solr管理网页:http://10.2.28.82:8080/solr/#/collection1/query
执行查询,可以看到最终节点数:
并且随着数据处理的进行,这个节点在不断增加,证明solr数据上传的正确性
测试bug汇总:
- 爬虫后台程序在服务器上无法正常启用
- 数据处理程序不可运行过多线程,否则数据库写入时会抛出异常
- 网页爬虫关键词相关功能无用