python网络爬虫与信息提取mooc------request库

request

request.get(url,params=None,**kwargs)

url:url页面的链接

params：url中额外参数，字典或字节流格式，是可选的

**kwargs：12个控制访问的参数

Response对象：对象包含爬虫返回的内容

访问成功则状态码是200 r.headers:返回页面头部信息

Response对象的属性

爬取网页框架

requests库的异常

timeout是整个过程的超时异常，connectimeout是链接过程超时异常

爬取网页通用代码框架及访问结果：

requests库的7个主要方法：

URL格式：http://host[:port][path]

host:合法的Internet主机域名或ip地址

port：端口号，缺省端口为80

path：请求资源的路径

patch只改变部分内容，put未提及的内容就会删除，原有数据覆盖掉

向url post一个字典自动编为form（表单）；字符串时则是data字段下

requests.request(method,url,**kwargs)

method:请求方式，对应get/put/post七种

**kwargs：控制访问的参数，共13个

posted @ 2020-03-05 22:22 159566 阅读(251) 评论(0) 编辑收藏举报

刷新页面返回顶部