贝塔阶段html及pdf模块测试

这次虽然工作内容是将c#的html及pdf处理程序移植到java中，但是由于重新编写代码使得先前的工作成果得不到利用，于是将其编写为dll，再在java端调用。

这使得在java端即便每个分支都到达，也测试不出程序的实际效果。故通过输入输出的方式对其进行判断从而观察其是否合乎要求。

问答对的网站：

　　baiduzhidao：

　　　　测试网站https://zhidao.baidu.com/question/439919745.html

　　　　实际效果：

　　　　这个content内容过长，故将其输出到文件中，显然我们可以看出标签已经没了，但是由于在html的编写中仍有其他各种语言混杂在里面，而这些无法被识别去除，十分残念。

　　　　至于Keywords则是将content交给分词器进行分词后获得，而分词器不再这部分代码的测试对象中，故仅给出分词前的content

sosowenwen:

网站直接来自于先前阿尔法趴下的网站2048851.html,效果如下图，效果拔群。至于其中的奇怪符号，我打开该网站后发现其原网站本身就有，故程序通过测试。

原网站（部分）

qcnblog:

网站https://q.cnblogs.com/q/89832/，效果如下图，效果拔群。

dewen:

这个网站无法直接打开，故同样采用了先前爬虫爬下来的文件2105660.html，效果如下，注table和图片链接是它本身问题和答案中即是如此

stackoverflow:

测试的网址为http://stackoverflow.com/questions/61401/hidden-features-of-php，但是这个网址的问题和答案都太长了，故输出到文件中如下图，左上位问题，右上为答案，左下为去标签后的内容，显然效果拔群，符合预期。

其他网站：

直接更改url为其他网站进行测试，效果符合预期。

pdf:

对随手拿来的一个pdf进行测试，也满足预期，正确提取出了pdf的内容

测试结束，程序功能上无问题。

posted @ 2017-01-05 00:31 Arara 阅读(183) 评论(0) 编辑收藏举报

刷新页面返回顶部

根本没有名字