会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
webreport
博客园
首页
新随笔
联系
订阅
管理
公告
2009年9月10日
#
利用httpclient+jericho多线程实现抓取网页内容
摘要: 任务描述: 某图书网站按条件查询得出一页20条记录,每条记录有书目的简要信息和url链接到书的详细信息。 需要抓取网站图书的详细信息,保存到本地数据库中。 任务分析: 用httpclient模拟执行url将网站的信息取回,再用jericho包,分析页面元素,将需要的信息取出,保存到数据库中。 因为数据量比较大,还是采用多线程的方式来执行抓取详细页面,分析获得数据。
阅读全文
posted @ 2009-09-10 10:41 web报表
阅读(4186)
评论(8)
推荐(1)
编辑
Powered by:
博客园
Copyright © 2024 web报表
Powered by .NET 9.0 on Kubernetes