urlopen打开简书robots.txt时报错:HTTP Error 403: Forbidden

报错代码:

from urllib.robotparser import RobotFileParser from urllib.request import urlopen rp = RobotFileParser() rp.parse(urlopen('https://www.jianshu.com/robots.txt').read().decode('utf-8').split('\n')) print(rp.can_fetch('*', 'https://www.jianshu.com/p/e9eb86a6d120')) print(rp.can_fetch('*', 'https://www.jianshu.com/u/080bb4eac1c9?utm_source=desktop&utm_medium=index-users'))

报错原因:用urllib.request.urlopen方式打开一个URL,服务器只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统等信息,而缺失这些信息的访问往往都是非正常访问,会被一些网站禁止掉

 

解决办法:在headers中加入UserAgent

from urllib.robotparser import RobotFileParser from urllib.request import urlopen, Request rp = RobotFileParser() headers = { 'User-Agent': 'Mozilla/4.0(compatible; MSIE 5.5; Windows NT)' } req = Request('https://www.jianshu.com/robots.txt', headers=headers) rp.parse(urlopen(req).read().decode('utf-8').split('\n')) print(rp.can_fetch('*', 'https://www.jianshu.com/p/e9eb86a6d120')) print(rp.can_fetch('*', 'https://www.jianshu.com/u/

 

 

 

1|0参考文章


爬取简书robots.txt时遇到的HTTP Error 403: Forbidden问题

 

 

 

 


__EOF__

本文作者cnhkzyy
本文链接https://www.cnblogs.com/my_captain/p/11032068.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   cnhkzyy  阅读(675)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示