浏览器代理爬虫问题
以上参考:https://blog.csdn.net/weixin_43902320/article/details/104342771
以下是自己的第一个爬虫小程序,虽然简单,但也值得记录下来:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 | import requests import bs4 headers = { 'User-Agent' :'Mozilla / 5.0 (Windows NT 10.0 ; WOW64) AppleWebKit / 537.36 (KHTML, like Gecko) \ Chrome / 86.0 . 4240.198 Safari / 537.36 QIHU 360EE '} #上一行内容由于太长了,用了换行符\,但让也可以用三引号“”“ ”“”; ##此外,由于豆瓣用了反爬功能所以,要伪装成自己的真实浏览器,在浏览器地址栏输入:about:version,然后把显示出的用户代理后面的内容全部复制下来; ##放到headers中的User-Agent键对应的value中即可。 res = requests.get( "https://movie.douban.com/top250" ,headers = headers) # print(res) soup = bs4.BeautifulSoup(res.text, "html.parser" ) # print(soup) targets = soup.find_all( "div" , class_ = "hd" ) # print(targets) for each in targets: print (each.a.span.text) 输出: 肖申克的救赎 霸王别姬 阿甘正传 这个杀手不太冷 泰坦尼克号 美丽人生 千与千寻 辛德勒的名单 盗梦空间 忠犬八公的故事 星际穿越 楚门的世界 海上钢琴师 三傻大闹宝莱坞 机器人总动员 放牛班的春天 无间道 疯狂动物城 大话西游之大圣娶亲 熔炉 教父 当幸福来敲门 龙猫 怦然心动 控方证人 Process finished with exit code 0 |
因为此处的class和python中的关键字重复,所以在爬虫的python中用class_来代替,class_来表示hd的一个div
标签。然后把他们的标题都找出来,找出之后放到一个targets的列表中去。
所以,用for循环print(div.a.span.text)打印出来。#此处的div就是targets中的项。
当遇到Response [200]返回值问题时:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix