浏览器代理爬虫问题

以上参考:https://blog.csdn.net/weixin_43902320/article/details/104342771

以下是自己的第一个爬虫小程序,虽然简单,但也值得记录下来:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
import requests
import bs4
 
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/86.0.4240.198 Safari/537.36 QIHU 360EE'} #上一行内容由于太长了,用了换行符\,但让也可以用三引号“”“ ”“”;
##此外,由于豆瓣用了反爬功能所以,要伪装成自己的真实浏览器,在浏览器地址栏输入:about:version,然后把显示出的用户代理后面的内容全部复制下来;
##放到headers中的User-Agent键对应的value中即可。
 
res = requests.get("https://movie.douban.com/top250",headers=headers)
# print(res)
soup = bs4.BeautifulSoup(res.text,"html.parser")
# print(soup)
targets = soup.find_all("div",class_="hd")
# print(targets)
for each in targets:
    print(each.a.span.text)
 
输出:
肖申克的救赎
霸王别姬
阿甘正传
这个杀手不太冷
泰坦尼克号
美丽人生
千与千寻
辛德勒的名单
盗梦空间
忠犬八公的故事
星际穿越
楚门的世界
海上钢琴师
三傻大闹宝莱坞
机器人总动员
放牛班的春天
无间道
疯狂动物城
大话西游之大圣娶亲
熔炉
教父
当幸福来敲门
龙猫
怦然心动
控方证人
 
Process finished with exit code 0

 

因为此处的class和python中的关键字重复,所以在爬虫的python中用class_来代替,class_来表示hd的一个div

标签。然后把他们的标题都找出来,找出之后放到一个targets的列表中去。

 所以,用for循环print(div.a.span.text)打印出来。#此处的div就是targets中的项。

 

 

 

当遇到Response [200]返回值问题时:

 

posted on   lmqljt  阅读(61)  评论(0编辑  收藏  举报

编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示