Python爬虫1-----urllib模块

1、加载urllib模块的request

from urllib import request

webpage=request.urlopen(url，timeout=1) 【读取网页,参数timeout表示1秒之后为超时，遇到无效网页时可以跳过】
data=webpage.read() 【读取页面内容】

　　【使用webpage.read()读取的页面内容text内容为bytes-object，打印内容为b’……‘】

　　【text为bytes-object，将其转换为字符串text.decode()，默认参数为空，也可使用编码方式参数，格式为decode(“gb2312”)。】

　　res=re.compile(pat).findall(str(data))【记得str(data)】

　　【无法直接使用到re.search()，使用前需要转换为string类型。res就是获取的内容】

（7）（可以查一下llib.request.Request函数）post和get请求

posted on 2018-05-08 20:31 吱吱了了阅读(328) 评论(0) 编辑收藏举报

刷新页面返回顶部