长颈鹿Giraffe

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2011年10月25日

摘要: 主题爬虫,又称聚焦爬虫(或专业爬虫),是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫(通用爬虫)的区别之处就在于,主题爬虫在实施网页抓取时要进行主题筛选。它尽量保证只抓取与主题相关的网页信息。聚焦爬虫的研究核心,集中在以下两点:(一)主题相关度计算:即计算当前已经抓下来的页面的主题相关程度。对主题相关度超过某一规定阈值的,即与主题相关的网页,将其保存到网页库;不相关的,则抛弃不管。(二)主题相关度预测:主题相关度预测是针对待抓URL的。也就是我们在分析当前已下载网页时所分离出来的哪些URLS。我们要通过计算它们的主题预测值来决定接下来是否对该URL所对应的网页进行抓取。针对以上两 阅读全文
posted @ 2011-10-25 22:50 长颈鹿Giraffe 阅读(1595) 评论(0) 推荐(0) 编辑