摘要: 实例1:京东商品页面的爬取 1.锁定网址 在京东页面找到一款手机复制网址 2. 进行爬取 2.1) 爬取代码 2.2) 返回信息 3. 全代码 实例2:亚马逊商品页面的爬取 1.锁定网址 在亚马逊页面找到一本书复制网址 2.进行爬取 2.1) 爬取代码 2.2) 状态码反思 状态码返回值是503,不 阅读全文
posted @ 2019-08-12 12:32 小白的个人总结 阅读(1695) 评论(0) 推荐(0) 编辑
摘要: 一、网络爬虫的尺寸 1.爬取网页 玩转网页 小规模,数据量小 爬取速度不敏感 Requests库 使用比例:>90% 2.爬取网站 爬取系列网站 中规模,数据规模较大 爬取速度敏感 Scrapy库 3.爬取全网 大规模,搜索引擎 爬取速度关键 定制开发 二、网络爬虫引发的问题 1.网络爬虫的性能骚扰 阅读全文
posted @ 2019-08-12 10:59 小白的个人总结 阅读(521) 评论(0) 推荐(0) 编辑