python实战之爬取喜玛拉雅专辑信息

复制代码
 1 import urllib.request
 2 import json
 3 from lxml import etree
 4 
 5 url='http://www.ximalaya.com/dq/8.ajax'
 6 headers ={    
 7     "User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
 8 }
 9 req = urllib.request.Request(url, headers= headers)
10 response = urllib.request.urlopen(req)
11 jsonobj=json.loads(response.read().decode('utf-8'))
12 html=jsonobj['html']
13 xml= etree.HTML(html)
14 nodeList = xml.xpath('//div[@class="discoverAlbum_item"]')
15 for node in nodeList:
16     img=node.xpath('.//img/@src')
17     print(img[0],end='\t')
18     title=node.xpath('.//img/@alt')
19     print(title[0],end='\t')
20     href = node.xpath('./a/@href')
21     print(href[0],end='\t')
复制代码

采用xpath解析html

posted @   wujf  阅读(628)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示