【Python】python3中urllib爬虫开发
以下是三种方法
①First Method
最简单的方法
②添加data,http header
使用Request对象
③CookieJar
import urllib.request from http import cookiejar url ='http://www.baidu.com' print("First Method") response1 = urllib.request.urlopen(url) #返回状态码 print(response1.getcode()) print(len(response1.read())) print("Second Method") request = urllib.request.Request(url) request.add_header("uese-agent","Mazilla/5.0") response2 = urllib.request.urlopen(url) #返回状态码 print(response2.getcode()) print(len(response2.read())) print("Third Method") #声明一个CookieJar对象实例来保存cookie cj = cookiejar.CookieJar() #利用urllib.request库的HTTPCookieProcessor对象来创建cookie处理器,也就CookieHandler handler = urllib.request.HTTPCookieProcessor(cj) #通过CookieHandler创建opener opener = urllib.request.build_opener(handler) #此处的open方法同urllib.request的urlopen方法,也可以传入request response3 = opener.open(url) #返回状态码 print(response3.getcode()) print(response3.read())
作者:奔跑的金鱼
声明:书写博客不易,转载请注明出处,请支持原创,侵权将追究法律责任
个性签名:人的一切的痛苦,本质上都是对自己无能的愤怒
如果觉得这篇文章对你有小小的帮助的话,记得在右下角点个“推荐”哦,博主在此感谢!