浏览器代理爬虫问题

以上参考：https://blog.csdn.net/weixin_43902320/article/details/104342771

以下是自己的第一个爬虫小程序，虽然简单，但也值得记录下来：

import requests
import bs4

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/86.0.4240.198 Safari/537.36 QIHU 360EE'} #上一行内容由于太长了，用了换行符\，但让也可以用三引号“”“ ”“”;
##此外，由于豆瓣用了反爬功能所以，要伪装成自己的真实浏览器，在浏览器地址栏输入：about:version,然后把显示出的用户代理后面的内容全部复制下来；
##放到headers中的User-Agent键对应的value中即可。

res = requests.get("https://movie.douban.com/top250",headers=headers)
# print(res)
soup = bs4.BeautifulSoup(res.text,"html.parser")
# print(soup)
targets = soup.find_all("div",class_="hd")
# print(targets)
for each in targets:
    print(each.a.span.text)

输出：
肖申克的救赎
霸王别姬
阿甘正传
这个杀手不太冷
泰坦尼克号
美丽人生
千与千寻
辛德勒的名单
盗梦空间
忠犬八公的故事
星际穿越
楚门的世界
海上钢琴师
三傻大闹宝莱坞
机器人总动员
放牛班的春天
无间道
疯狂动物城
大话西游之大圣娶亲
熔炉
教父
当幸福来敲门
龙猫
怦然心动
控方证人

Process finished with exit code 0

因为此处的class和python中的关键字重复，所以在爬虫的python中用class_来代替，class_来表示hd的一个div

标签。然后把他们的标题都找出来，找出之后放到一个targets的列表中去。

所以，用for循环print(div.a.span.text)打印出来。#此处的div就是targets中的项。

当遇到Response [200]返回值问题时：

posted on 2021-07-27 21:52 lmqljt 阅读(58) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

lmqljt

浏览器代理爬虫问题

导航

公告