浏览器代理爬虫问题

以上参考:https://blog.csdn.net/weixin_43902320/article/details/104342771

以下是自己的第一个爬虫小程序,虽然简单,但也值得记录下来:

import requests
import bs4

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/86.0.4240.198 Safari/537.36 QIHU 360EE'} #上一行内容由于太长了,用了换行符\,但让也可以用三引号“”“ ”“”;
##此外,由于豆瓣用了反爬功能所以,要伪装成自己的真实浏览器,在浏览器地址栏输入:about:version,然后把显示出的用户代理后面的内容全部复制下来;
##放到headers中的User-Agent键对应的value中即可。

res = requests.get("https://movie.douban.com/top250",headers=headers)
# print(res)
soup = bs4.BeautifulSoup(res.text,"html.parser")
# print(soup)
targets = soup.find_all("div",class_="hd")
# print(targets)
for each in targets:
    print(each.a.span.text)

输出:
肖申克的救赎
霸王别姬
阿甘正传
这个杀手不太冷
泰坦尼克号
美丽人生
千与千寻
辛德勒的名单
盗梦空间
忠犬八公的故事
星际穿越
楚门的世界
海上钢琴师
三傻大闹宝莱坞
机器人总动员
放牛班的春天
无间道
疯狂动物城
大话西游之大圣娶亲
熔炉
教父
当幸福来敲门
龙猫
怦然心动
控方证人

Process finished with exit code 0

 

因为此处的class和python中的关键字重复,所以在爬虫的python中用class_来代替,class_来表示hd的一个div

标签。然后把他们的标题都找出来,找出之后放到一个targets的列表中去。

 所以,用for循环print(div.a.span.text)打印出来。#此处的div就是targets中的项。

 

 

 

当遇到Response [200]返回值问题时:

 

posted on 2021-07-27 21:52  lmqljt  阅读(58)  评论(0编辑  收藏  举报

导航