爬取豆瓣电影top250 状态码 418 的解决方案

1. 问题

使用 python requests 库的 get 方法抓取豆瓣电影top 250，结果返回的是 None，打印状态码看到的是 418

>>> import requests
>>> r = requests.get('https://movie.douban.com/top250')
>>> r.content
b''
>>> r.status_code
418

然后在 HTTP 响应代码里面查看了下，发现是：

418 I'm a teapot
服务器拒绝尝试用 “茶壶冲泡咖啡”。

2. 原因

这应该是豆瓣服务器做了反爬虫措施，拒绝非浏览器的访问，检测到爬虫就返回一个 418 响应。

本质上爬虫也算是一个客户端，通过发送请求去向服务器请求数据，可能是使用 requests.get 生成的 http request 的 header 过于简短，而不被服务器接收，因此我们模拟浏览器的相关 http 请求的 header 就可以了

提示：一般的反爬虫机制为：检查请求头的 User-Agent、Referer、Cookies 等

3. 解决方案

（1）构造合理的 HTTP 请求头

使用浏览器访问豆瓣电影 top250，然后按 F12 进入浏览器的开发者模式，查看 Requests Headers，将 request headers 中的 User-Agent 字段复制下来（当然，也可以将所有的 headers 信息复制下来）

步骤： F12 --> NetWork --> F5 刷新页面 --> 查看第一个请求 --> 复制 requests headers

豆瓣电影 Top 250 的浏览器请求头

（2）成果

>>> import requests
>>> headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36' }
>>> r = requests.get('https://movie.douban.com/top250', headers=headers)
>>> r.status_code
200
>>> r.content
b'<!DOCTYPE html><html lang="zh-CN" class="ua-windows ua-webkit">......'

posted @ 2022-05-24 23:54 夏夜星空晚风阅读(467) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Beautiful Soup 快速入门

· 浏览器拖拽文件功能区域的高亮和非高亮问题

· [Go爬虫02]豆瓣读书TOP250

· 004爬虫之获取豆瓣TOP250电影数据

· python爬虫系列之豆瓣电影top250源码

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？

公告

昵称：夏夜星空晚风
园龄： 8年4个月
粉丝： 22
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

夏夜星空晚风

爬取豆瓣电影top250 状态码 418 的解决方案

1. 问题

2. 原因

3. 解决方案

（1）构造合理的 HTTP 请求头

（2）成果

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

夏夜星空晚风

爬取豆瓣电影top250 状态码 418 的解决方案

1. 问题

2. 原因

3. 解决方案

（1） 构造合理的 HTTP 请求头

（2） 成果

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

（1）构造合理的 HTTP 请求头

（2）成果