python 爬虫
一、requests 模块爬虫基础写法
# 基础爬虫写法.py
import requests
def spider(url):
# 定义一个函数,爬取网页源码
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}
# 定义个一个headers 里面放user-agnet,也可以放别的信息, 字典格式key-values
# user-agent 会告诉网站服务器,访问者是通过什么工具来请求的。 类似伪造身份,让对端把自己当成浏览器
ret = requests.get(url, headers=headers)
# 请求一个地址,返回响应
html = ret.content
# 得到http响应内容的二进制形式
# html = ret.content.decode('utf-8')
# 得到http响应内容的二进制形式,指定编码格式为utf-8
return html
# 返回http响应内容
if __name__ == '__main__':
url = "https://www.cnblogs.com/aaak/p/13968431.html"
# url 地址
html = spider(url).decode('utf-8')
# 调用 函数,并指定编码格式
print(html)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~