2.6 网页分类：文章类/非文章类

有了这个分类，我们就可以进行全网抓取，是文章类的就入库，不是文章类的就不入库。所以这个分类对于我们要做的文章类搜索引擎至关重要。

事实上实现方法也非常简单，上一节已经提到了，同样是上一节的程序，可以输出每个页面是文章类网页的概率，大于0.5我们就认为是文章类。

比如我加入了三个链接，分别是我的博客主页，和两个博客文章。分析结果如下：

由于我用的是set，所以遍历的顺序可能不是按照链接池里的顺序。可以看出，主页是文章类的概率只有0.327。感觉还是比较准确的。

虽然不是文章类，提取的主要内容还是挺正确的，嘻嘻。

实际上我做过测试。分类情况如下：

虽然说测试集不够大，但是也有一定的代表性。就是说，大于0.5的，基本铁定是文章类的了，而小于0.5的，也可能会有文章类的网页。感觉虽然达不到100%，但是对于我们想要做的文章类搜索引擎基本够用了。

下一节会讲解这两节的内容的原理。

posted @ 2017-05-07 21:03 lvmememe 阅读(394) 评论(0) 编辑收藏举报

刷新页面返回顶部

lvmememe