2.6 网页分类:文章类/非文章类

  有了这个分类,我们就可以进行全网抓取,是文章类的就入库,不是文章类的就不入库。所以这个分类对于我们要做的文章类搜索引擎至关重要。

  事实上实现方法也非常简单,上一节已经提到了,同样是上一节的程序,可以输出每个页面是文章类网页的概率,大于0.5我们就认为是文章类。

  比如我加入了三个链接,分别是我的博客主页,和两个博客文章。分析结果如下:

  

  由于我用的是set,所以遍历的顺序可能不是按照链接池里的顺序。可以看出,主页是文章类的概率只有0.327。感觉还是比较准确的。

 

  

  虽然不是文章类,提取的主要内容还是挺正确的,嘻嘻。

  实际上我做过测试。分类情况如下:

  

 

Have article

Don not have article

P>=0.5

23

0

P<0.5

5

55

  虽然说测试集不够大,但是也有一定的代表性。就是说,大于0.5的,基本铁定是文章类的了,而小于0.5的,也可能会有文章类的网页。感觉虽然达不到100%,但是对于我们想要做的文章类搜索引擎基本够用了。

  下一节会讲解这两节的内容的原理。

 

posted @ 2017-05-07 21:03  lvmememe  阅读(394)  评论(0编辑  收藏  举报