数据爬取关键字——UA伪装
1 import requests 2 3 #处理路径 4 5 #url ='https://cn.bing.com/search?q=python%E7%88%AC%E5%8F%96%E7%BD%91%E9%A1%B5%E6%95%B0%E6%8D%AE' 6 #这里复制粘贴过来会变成乱码没关系吧乱码后面的修改一下就行了 7 8 #UA:伪装 9 #user_agent 门户网站的服务器会检测对应请求的身份载体表示,如果为浏览器,那么代表是正常用户通过浏览器发起的请求 10 11 #但是如果检测到身份请求并不是有浏览器发起的话就代表不正常,不正常的请求就是爬虫,服务器有可能会进行拒绝访问 12 13 14 #所以要进行UA伪装:让爬虫对饮的请求载体身份标识伪装成某一个浏览器 15 16 17 headers ={ 18 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0' 19 } 20 21 url = 'https://cn.bing.com/search?' 22 23 #处理url携带的参数:将后面q的参数封装到数据字典里面 24 #想要把这个关键字做成动态输入的 25 kw = input('enter a word:') 26 param = { 27 'q':kw 28 } 29 30 #数据参数创建成功,这样就可以把问号后面的都删除掉了 31 32 33 #发起请求 34 #对指定的URL发起请求,并且请求时携带param参数的,请求过程已经进行处理参数 35 36 response=requests.get(url=url,params=param,headers=headers) 37 # 路径 参数 请求载体 38 39 #获取 40 41 page_text = response.text 42 43 fileName = kw+'.html' 44 with open(fileName,'w',encoding='utf-8') as fp: 45 fp.write(page_text) 46 47 print(fileName+'保存成功!!!')