会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
学无止境
博客园
首页
新随笔
联系
订阅
管理
2008年1月31日
通用网页抓取设计
摘要: 导言 网页抓取是一个比较简单的工作,主要分为以下三步:一:分析要抓取的网页,获取待抓取的页面地址;二、用下载方式缓存网页,如果网站设置有访问时间限制,就要用这步来缓存;三、分析缓存中的网页,整理数据 在所有步骤中,对于所有的网站,只有获取换取地址、缓存网页、处理网页这几个方式不一定一样,其它的处理方式,都可以认为是一样的 总体接口设计 接口设计 包括地址抓取、处理、文件缓存、消息传递委托类...
阅读全文
posted @ 2008-01-31 11:17 cdboy
阅读(772)
评论(0)
推荐(0)
编辑
公告