摘要: “新闻订阅”系统网络爬虫部分设计报告爬虫部分(以下称爬虫)的功能是定期从网络上收集新出现的新闻网页;将其内容以增量的形式存储起来;计算其与以往新闻的相关度,构成按时间组织的新闻事件序列。爬虫所有处理的网页可以分为两个类别:目录型网页和内容型网页。目录型网页是一些新闻门户网页(例如:http://sports.sohu.com/),其页面上含有大量链接指向新闻内容网页。这些网... 阅读全文
posted @ 2009-06-08 02:36 睿达团队 阅读(900) 评论(0) 推荐(0) 编辑