爬虫入门(二)

 前面我们讲到爬虫的基本流程现在我们来按照流程写个简单的案例

我们爬取斗图网的图片吧

首先我们先找到斗图的url,url找到的有很多种我们来个简单的url

 

代码如下:

 #斗图的url url = "https://www.doutula.com/article/list/?page=2" 

 我们找到url之后要把自己伪装成浏览器,因为有很多网站不想让别人爬去他们的数据所以就有反爬机制.

那么怎样伪装成浏览器那

右键点击选择检查刷新一下页面,找到user-agent

#伪装成浏览器
headers = {
    'Host': 'www.doutula.com',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }

  

posted @ 2018-11-26 20:58  浮生若梦不悔  阅读(121)  评论(0编辑  收藏  举报