爬虫入门(二)
前面我们讲到爬虫的基本流程现在我们来按照流程写个简单的案例
我们爬取斗图网的图片吧
首先我们先找到斗图的url,url找到的有很多种我们来个简单的url
代码如下:
#斗图的url url = "https://www.doutula.com/article/list/?page=2"
我们找到url之后要把自己伪装成浏览器,因为有很多网站不想让别人爬去他们的数据所以就有反爬机制.
那么怎样伪装成浏览器那
右键点击选择检查刷新一下页面,找到user-agent
#伪装成浏览器 headers = { 'Host': 'www.doutula.com', 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' }