会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
hxt8
博客园
首页
新随笔
联系
订阅
管理
2018年8月17日
使用webpasser抓取某笑话网站整站内容
摘要: 使用webpasser框架抓取某一笑话网站整站内容。webpasser是一款可配置的爬虫框架,内置页面解析引擎,可快速配置出一个爬虫任务。先写总的抓取参数:网页编码是gbk,请求超时时间是5秒,请求失败重试5次,抓取失败后等待时间10秒,设置10个线程抓取,每次抓取后不等待。这里不设置请求头信息、cookie,代理了
阅读全文
posted @ 2018-08-17 21:49 hxt8
阅读(550)
评论(0)
推荐(0)
编辑