python爬虫学习04-爬取贴吧
百度贴吧网页爬取
以下是代码
from urllib.request import urlopen
from urllib.request import Request
from urllib.parse import urlencode
from fake_useragent import UserAgent
def get_html(url):
# 随机获取一个动态ua
headers = {
"User-Agent": UserAgent().random
}
# 发起请求
request = Request(url, headers=headers)
# urlopen()获取页面,类型是字节,需要用decode()解码,转换成str类型
respose = urlopen(request)
return respose.read()
def save_html(filename,html_bytes):
with open(filename,"wb") as f:
f.write(html_bytes)
def main():
content = input(print("请输入你要下载的内容:"))
num = input(print("请输入你要下载多少页:"))
base_url = "https://tieba.baidu.com/f?ie=utf-8{}"
for pn in range(int(num)):
args = {
"pn":pn*50,
"kw":content
}
filename = "第"+str(pn+1)+"页.html"
args = urlencode(args)
print("正在下载"+filename)
html_bytes = get_html(base_url.format(args))
save_html(filename,html_bytes)
if __name__ == '__main__':
main()
代码成就万世基积沙镇海
梦想永在凌云意意气风发
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?