爬虫获取主页信息并修改报头
先上代码
import urllib.request
class GetHtml(object):
def __init__(self,URL,HEAD):
self.url=URL
self.head=HEAD
def get_index(self):
self.request=urllib.request.Request(self.url)
self.request.add_header("user-agent",self.head)
self.response=urllib.request.urlopen(self.request)
return self.response.read()
html=GetHtml("http://192.168.2.133/fake","Mozilla/5.0 (Windows NT 8.1; Win32; x86) \
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62");
print(html.get_index())
解释
- 我创造了一个192.168.2.133/fake的假网站专门用作爬虫
- urllib.request 是以浏览器的方式请求url响应的包
- 创建GetHtml类,构造函数分别有:获取主页url和报头
- get_index方法是初始化
- 首先使用包下的Request方法请求到url
- 其次在request的前面添加我们的报头,报头的前面还要加上user-agent
- 然后我们在响应里使用urlopen将响应的内容赋值
- 最后返回我们的响应数值
本文来自博客园,作者:{Zeker62},转载请注明原文链接:https://www.cnblogs.com/Zeker62/p/15167805.html