python网络爬虫与信息提取mooc------request库

 

request

 

 

 

 request.get(url,params=None,**kwargs)

url:url页面的链接

params:url中额外参数,字典或字节流格式,是可选的

**kwargs:12个控制访问的参数

 

 

 Response对象:对象包含爬虫返回的内容

 

 

 访问成功则状态码是200                  r.headers:返回页面头部信息

Response对象的属性

 

 

 

 

 

 

 

 

 

 

 

 

 

爬取网页框架

requests库的异常

 

 

 

 

 

 

 

 

timeout是整个过程的超时异常,connectimeout是链接过程超时异常

 

 爬取网页通用代码框架及访问结果:

 

 

 

 requests库的7个主要方法:

URL格式:http://host[:port][path]

host:合法的Internet主机域名或ip地址

port:端口号,缺省端口为80

path:请求资源的路径

 

 

 patch只改变部分内容,put未提及的内容就会删除,原有数据覆盖掉

向url post一个字典自动编为form(表单);字符串时则是data字段下

 

requests.request(method,url,**kwargs)

method:请求方式,对应get/put/post七种

**kwargs:控制访问的参数,共13个

 

posted @ 2020-03-05 22:22  159566  阅读(251)  评论(0编辑  收藏  举报