2.6 网页分类:文章类/非文章类
有了这个分类,我们就可以进行全网抓取,是文章类的就入库,不是文章类的就不入库。所以这个分类对于我们要做的文章类搜索引擎至关重要。
事实上实现方法也非常简单,上一节已经提到了,同样是上一节的程序,可以输出每个页面是文章类网页的概率,大于0.5我们就认为是文章类。
比如我加入了三个链接,分别是我的博客主页,和两个博客文章。分析结果如下:
由于我用的是set,所以遍历的顺序可能不是按照链接池里的顺序。可以看出,主页是文章类的概率只有0.327。感觉还是比较准确的。
虽然不是文章类,提取的主要内容还是挺正确的,嘻嘻。
实际上我做过测试。分类情况如下:
Have article |
Don not have article |
|
P>=0.5 |
23 |
0 |
P<0.5 |
5 |
55 |
虽然说测试集不够大,但是也有一定的代表性。就是说,大于0.5的,基本铁定是文章类的了,而小于0.5的,也可能会有文章类的网页。感觉虽然达不到100%,但是对于我们想要做的文章类搜索引擎基本够用了。
下一节会讲解这两节的内容的原理。