爬虫学习1
1.爬取网页2.逐一解析数据3.保存数据
获取一个get请求
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com" (可以在这里加上timeout=111,设定一个超时时间,一般在上面加上try,下面加上except urllib.error.urlerror as e print("time out")) )
打开这个页面,直接把返回的页面数据传给response。可以直接打印出来。
print(response.read());也可以用 print(response.read().decode(utf-8));
直接就是网页的源代码。
用httpbin.org查看响应头
获取一个post请求
import urllib.parse
data=bytes(urllib.parse.urlencode({""}),encoding="utf-8")
response=urllib.request.urlopen("http://httpbin.org/post",data=data)
print(response.read().decode(utf-8));
.read换成.status会返回它的响应时间
response.getheader是获取头部信息。如果在后面再加入("Server")可以获取单个信息。