python使用lxml库进行本地html文件的内容提取
从某些网站上得到了一些考试题目,但是人家的排版时:题目、选项、正确答案
怎么才能把题目都提取到文件的一列,选项提取到一列,答案提取到一列呢?
使用了lxml这个库,不过这个库需要安装: pip install lxml
>>> from lxml import etree
#打开这个本地文件,然后把这个html文件使用open打开,然后read到data,然后让etree.HTML处理这些
#然后重点时使用xpath就可以进行搜索了
>>> f=open("gov.html","r",encoding="utf8")
>>> data=f.read()
>>>f.close()
>>> html=etree.HTML(data)
>>> timus=html.xpath("//span[@class='p-ques-desc']")
>>> len(timus)
10
>>> print(timus[0].text)
可视化展示为一体的经济大数据智能分析平台:
-------
重点就是使用xpath来进行规整了
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?