python实战之爬取喜玛拉雅专辑信息
1 import urllib.request 2 import json 3 from lxml import etree 4 5 url='http://www.ximalaya.com/dq/8.ajax' 6 headers ={ 7 "User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' 8 } 9 req = urllib.request.Request(url, headers= headers) 10 response = urllib.request.urlopen(req) 11 jsonobj=json.loads(response.read().decode('utf-8')) 12 html=jsonobj['html'] 13 xml= etree.HTML(html) 14 nodeList = xml.xpath('//div[@class="discoverAlbum_item"]') 15 for node in nodeList: 16 img=node.xpath('.//img/@src') 17 print(img[0],end='\t') 18 title=node.xpath('.//img/@alt') 19 print(title[0],end='\t') 20 href = node.xpath('./a/@href') 21 print(href[0],end='\t')
采用xpath解析html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人