爬虫入门(二)

前面我们讲到爬虫的基本流程现在我们来按照流程写个简单的案例

我们爬取斗图网的图片吧

首先我们先找到斗图的url,url找到的有很多种我们来个简单的url

代码如下:

#斗图的url url = "https://www.doutula.com/article/list/?page=2"

我们找到url之后要把自己伪装成浏览器,因为有很多网站不想让别人爬去他们的数据所以就有反爬机制.

那么怎样伪装成浏览器那

右键点击选择检查刷新一下页面,找到user-agent

#伪装成浏览器
headers = {
    'Host': 'www.doutula.com',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }

posted @ 2018-11-26 20:58 浮生若梦不悔阅读(135) 评论(0) 收藏举报

刷新页面返回顶部

浮生若梦不悔

爬虫入门(二)

公告