爬虫beautifulsoup实践

爬虫beautifulsoup实践：

目的：在https://unsplash.com/上爬取图片并保存到本地文件夹里。

一、观察response。首先，在Chrome浏览器里观察一下该网页的response内容，可以观察到，图片的URL都存放在img标签下面，srcset属性里面，而且它们的class属性都为_2zEKz。

二、理清爬虫步骤的思路。规律已经找出来了~下一步就把爬虫的思路写一下：

1、利用requests库获取目标网站的response（headers用Chrome浏览器里面的headers);

2、对获取到的response进行处理，截取到里面包含的每个图片URL信息；

3、对每个图片的URL进行请求，然后将每个response存到指定的文件夹里面。

三、编写步骤。

1、利用requests库获取目标网站的response（headers用Chrome浏览器里面的headers);

在Chrome里面搞个user-agent去做headers

headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}

response = requests.get('https://unsplash.com/',headers=headers)

这样，第一步就基本完成了，可以测试一下，看是否真的获取到response：

print(response.status_code)

如果结果输出为200，证明成功获取到response

2、对获取到的response进行处理，截取到里面包含的每个图片URL信息；

response里面包含了页面所有的html文本信息，但我们只需要其中的图片的URL，所以，这一步主要就是对这些文本信息进行处理。

这一步有两个方向可以选择，一是用正则表达式去匹配合适的文本信息，二是利用beautifulsoup去做一个获取。在这个实践中我们选用beautifulsoup，而且这样做的效率比正则表达式高很多（特别是对于对正则表达式不是很熟练的同学来说）。

根据

posted on 2019-01-07 17:02 蛋挞王子阅读(196) 评论(0) 编辑收藏举报

刷新页面返回顶部

蛋挞王子