222wan

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

数据爬取关键字——UA伪装

 

  

复制代码
 1 import requests
 2 
 3 #处理路径
 4 
 5 #url ='https://cn.bing.com/search?q=python%E7%88%AC%E5%8F%96%E7%BD%91%E9%A1%B5%E6%95%B0%E6%8D%AE'
 6 #这里复制粘贴过来会变成乱码没关系吧乱码后面的修改一下就行了
 7 
 8 #UA:伪装
 9 #user_agent  门户网站的服务器会检测对应请求的身份载体表示,如果为浏览器,那么代表是正常用户通过浏览器发起的请求
10 
11 #但是如果检测到身份请求并不是有浏览器发起的话就代表不正常,不正常的请求就是爬虫,服务器有可能会进行拒绝访问
12 
13 
14 #所以要进行UA伪装:让爬虫对饮的请求载体身份标识伪装成某一个浏览器
15 
16 
17 headers ={
18     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'
19 }
20 
21 url = 'https://cn.bing.com/search?'
22 
23 #处理url携带的参数:将后面q的参数封装到数据字典里面
24 #想要把这个关键字做成动态输入的
25 kw = input('enter a word:')
26 param = {
27     'q':kw
28 } 
29 
30 #数据参数创建成功,这样就可以把问号后面的都删除掉了
31 
32 
33 #发起请求
34 #对指定的URL发起请求,并且请求时携带param参数的,请求过程已经进行处理参数
35 
36 response=requests.get(url=url,params=param,headers=headers)
37 #               路径              参数           请求载体
38 
39 #获取
40 
41 page_text = response.text
42 
43 fileName = kw+'.html'
44 with open(fileName,'w',encoding='utf-8') as fp:
45     fp.write(page_text)
46     
47 print(fileName+'保存成功!!!')
复制代码

 

posted on   角落的蘑菇  阅读(143)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示