05_Python爬蟲入門遇到的坑__總結
1. 並不是所有的網站都能一次性的爬取成功,因為其可能做有相應的反爬取處理.
2. 如何更直觀的看到自己的效果:由於目前我們所講的只是把網頁的整個源碼爬取下來,所以我們只要將源碼保存為html就可以看見自己爬取的效果.如果直接複製粘貼太low,而且容易出錯,不妨使用如下的代碼:
with open("./baidu.html", mode="wb") as f: f.write(r.content) f.close()
注釋:如果你的URL連接是一張圖,那麼你可以不用保存為html,直接保存為圖片即可--網絡爬取圖片的方式
3. headers的三個成員:
- User-Agent: 告訴服務器我不是機器人--我是通過瀏覽器發起的請求
- Cookie: 告訴服務器我不是機器人--我有登錄你的網站
- Accept: 告訴服務器我不是機器人--我能接受你的返回類型有哪些
4. 使用request.url可以查看提交的請求,使用request.headers可以查看提交的頭部信息
5. 獲取一個網站的接口可以通過嘗試提交關鍵字獲取
分类:
Python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· Ollama——大语言模型本地部署的极速利器
· 使用C#创建一个MCP客户端
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· Windows编程----内核对象竟然如此简单?
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用