随笔分类 -  请求-urllib

摘要:1 url分解 import urllib.parse 2 3 result = urllib.parse.urlparse('http://www.baidu.com') 4 print(result) 5 结果为:ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='', fragment... 阅读全文
posted @ 2017-05-11 18:53 道高一尺 阅读(2361) 评论(0) 推荐(0) 编辑
摘要:1 #捕获异常 2 import urllib.request 3 import urllib.error 4 5 try: 6 response = urllib.request.urlopen('http://sasd.com') 7 except urllib.error.URLError as e: 8 print('挂掉的情形是:',e.reason) 1 ... 阅读全文
posted @ 2017-05-11 18:12 道高一尺 阅读(270) 评论(0) 推荐(0) 编辑
摘要:urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法,下面一起来看看。 python3 抓取网页资源 阅读全文
posted @ 2017-05-11 17:37 道高一尺 阅读(383) 评论(0) 推荐(0) 编辑
摘要:1 提取cookie信息并打印 2 import http.cookiejar,urllib.request 3 4 #http.cookiejar.CookieJar的作用是提取cookie信息 5 #在这里是声明cookie变量,它是http.cookiejar.CookieJar的实例 6 cookie = http.cookiejar.CookieJar() 7 #HTT... 阅读全文
posted @ 2017-05-11 17:33 道高一尺 阅读(257) 评论(0) 推荐(0) 编辑
摘要:cookielib模块 cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。例如可以利用本模块 的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送。coiokielib模块用到的对象主要有下面几个:Coo 阅读全文
posted @ 2017-05-11 16:51 道高一尺 阅读(1726) 评论(0) 推荐(0) 编辑
摘要:第一步: proxy_support = urllib.request.ProxyHandler({字典参数}) 字典类型举例:{'http':'192.168.1.1:88'} 注意:这里可以创建一个iplist随机选取代理ip进行访问,方法如下: iplist =['192.168.1.1:88 阅读全文
posted @ 2017-05-11 12:41 道高一尺 阅读(234) 评论(0) 推荐(0) 编辑
摘要:urllib.request.urlopen(url,data,timeout) 其中如果data被赋值,则请求的方式就会由get转为post,而post需要提供一些待处理的数据。 这些待处理的数据需要一定的格式,因此就需要urllib.parse.urlencode urllib.parse.ur 阅读全文
posted @ 2017-05-11 12:11 道高一尺 阅读(3294) 评论(0) 推荐(0) 编辑
摘要:1 import urllib.request 2 #可以将url先构造成一个Request对象,传进urlopen 3 #Request存在的意义是便于在请求的时候传入一些信息,而urlopen则不 4 request = urllib.request.Request('http: 5 response = urllib.request.url... 阅读全文
posted @ 2017-05-11 11:45 道高一尺 阅读(9183) 评论(1) 推荐(0) 编辑
摘要:python3 urllib.request 网络请求操作 基本的网络请求示例 发送数据请求,CGI程序处理 PUT请求 基本的HTTP验证,登录请求 支持代理方式验证请求 添加 http headers 添加 user-agent 带参数的GET 请求 带参数的POST请求 指定代理方式请求 无添 阅读全文
posted @ 2017-05-10 19:16 道高一尺 阅读(495) 评论(0) 推荐(0) 编辑
摘要:1 #响应类型 2 import urllib.request 3 response = urllib.request.urlopen('http://www.baidu.com') 4 print(type(res... 阅读全文
posted @ 2017-05-10 19:03 道高一尺 阅读(216) 评论(0) 推荐(0) 编辑
摘要:1 ''' 2 urllib.request:请求模块 3 urllib.error:异常处理模块 4 urllib.parse:url解析模块 5 ''' 6 response有三个方法response.geturl()可以获取url地址response.info()获得响应的header信息response.getcode()获得响应状态码 7 #get请求 8 import... 阅读全文
posted @ 2017-05-10 18:49 道高一尺 阅读(191) 评论(0) 推荐(0) 编辑
摘要:1 import urllib.request 2 import re 3 4 def open_url(url): 5 req = urllib.request.Request(url) 6 req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebK... 阅读全文
posted @ 2017-04-22 19:18 道高一尺 阅读(313) 评论(0) 推荐(0) 编辑
摘要:import urllib.request import re def url_open(url): req = urllib.request.Request(url,headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.... 阅读全文
posted @ 2017-04-22 17:49 道高一尺 阅读(298) 评论(0) 推荐(0) 编辑
摘要:1 #导入要使用的模块 2 import urllib.request 3 import os 4 5 #定义一个打开页面的函数 6 def url_open(url): 7 #找到页面地址,首先要打开地址,加入User-Agent 8 urllib.request.Request(url,headers={'User-Agent':'Mozilla/5.0 (... 阅读全文
posted @ 2017-04-20 10:27 道高一尺 阅读(492) 评论(0) 推荐(0) 编辑
摘要:1 import urllib.request 2 from bs4 import BeautifulSoup 3 import re 4 5 def main(): 6 response= urllib.request.urlopen('http://baike.baidu.com/view/284853.htm').read() 7 soup = Beauti... 阅读全文
posted @ 2017-04-12 22:26 道高一尺 阅读(763) 评论(0) 推荐(0) 编辑
摘要:1、服务器是如何识别访问来自浏览器还是非浏览器 通过post的http头中的User-Agent来进行识别浏览器与非浏览器,服务器还以User-Agent来区分各个浏览器。 2、明明代码跟视频中的例子一样,一运行却出错了,在不修改代码的情况下重新运行一次却又变好了,这是为什么? 在网络信息的传输中会 阅读全文
posted @ 2017-04-02 21:48 道高一尺 阅读(624) 评论(0) 推荐(0) 编辑