爬虫学习1
1.爬取网页2.逐一解析数据3.保存数据
获取一个get请求
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com" (可以在这里加上timeout=111,设定一个超时时间,一般在上面加上try,下面加上except urllib.error.urlerror as e print("time out")) )
打开这个页面,直接把返回的页面数据传给response。可以直接打印出来。
print(response.read());也可以用 print(response.read().decode(utf-8));
直接就是网页的源代码。
用httpbin.org查看响应头
获取一个post请求
import urllib.parse
data=bytes(urllib.parse.urlencode({""}),encoding="utf-8")
response=urllib.request.urlopen("http://httpbin.org/post",data=data)
print(response.read().decode(utf-8));
.read换成.status会返回它的响应时间
response.getheader是获取头部信息。如果在后面再加入("Server")可以获取单个信息。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现