222wan

导航

数据爬取关键字——UA伪装

 

  

 1 import requests
 2 
 3 #处理路径
 4 
 5 #url ='https://cn.bing.com/search?q=python%E7%88%AC%E5%8F%96%E7%BD%91%E9%A1%B5%E6%95%B0%E6%8D%AE'
 6 #这里复制粘贴过来会变成乱码没关系吧乱码后面的修改一下就行了
 7 
 8 #UA:伪装
 9 #user_agent  门户网站的服务器会检测对应请求的身份载体表示,如果为浏览器,那么代表是正常用户通过浏览器发起的请求
10 
11 #但是如果检测到身份请求并不是有浏览器发起的话就代表不正常,不正常的请求就是爬虫,服务器有可能会进行拒绝访问
12 
13 
14 #所以要进行UA伪装:让爬虫对饮的请求载体身份标识伪装成某一个浏览器
15 
16 
17 headers ={
18     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'
19 }
20 
21 url = 'https://cn.bing.com/search?'
22 
23 #处理url携带的参数:将后面q的参数封装到数据字典里面
24 #想要把这个关键字做成动态输入的
25 kw = input('enter a word:')
26 param = {
27     'q':kw
28 } 
29 
30 #数据参数创建成功,这样就可以把问号后面的都删除掉了
31 
32 
33 #发起请求
34 #对指定的URL发起请求,并且请求时携带param参数的,请求过程已经进行处理参数
35 
36 response=requests.get(url=url,params=param,headers=headers)
37 #               路径              参数           请求载体
38 
39 #获取
40 
41 page_text = response.text
42 
43 fileName = kw+'.html'
44 with open(fileName,'w',encoding='utf-8') as fp:
45     fp.write(page_text)
46     
47 print(fileName+'保存成功!!!')

 

posted on 2024-03-22 18:41  角落的蘑菇  阅读(133)  评论(0编辑  收藏  举报