会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
睿达团队
互联网的隔壁,有家技术研究室
博客园
::
首页
::
新随笔
::
联系
::
订阅
::
管理
公告
2009年6月8日
“新闻订阅”系统网络爬虫部分设计报告
摘要: “新闻订阅”系统网络爬虫部分设计报告爬虫部分(以下称爬虫)的功能是定期从网络上收集新出现的新闻网页;将其内容以增量的形式存储起来;计算其与以往新闻的相关度,构成按时间组织的新闻事件序列。爬虫所有处理的网页可以分为两个类别:目录型网页和内容型网页。目录型网页是一些新闻门户网页(例如:http://sports.sohu.com/),其页面上含有大量链接指向新闻内容网页。这些网...
阅读全文
posted @ 2009-06-08 02:36 睿达团队
阅读(900)
评论(0)
推荐(0)
编辑