会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
木木纸
博客园
首页
新随笔
联系
订阅
管理
2019年11月16日
网络爬虫引发的问题及robots协议
摘要: 一.网络爬虫的尺寸 1.以爬取网页,玩转网页为目的进行小规模,数据量小对爬取速度不敏感的可以使用request库实现功能(占90%) 2.以爬取网站或爬取系列网站为目的,比如说获取一个或多个旅游网站的爬虫,对数据要求规模较大,爬取速度敏感的可以使用Scrapy库 3.以爬取全网为目的,规模很大搜索引
阅读全文
posted @ 2019-11-16 14:36 木木纸
阅读(1111)
评论(1)
推荐(1)
编辑
公告