python使用lxml库进行本地html文件的内容提取

从某些网站上得到了一些考试题目,但是人家的排版时:题目、选项、正确答案

怎么才能把题目都提取到文件的一列,选项提取到一列,答案提取到一列呢?

使用了lxml这个库,不过这个库需要安装:  pip install lxml

>>> from lxml import etree

#打开这个本地文件,然后把这个html文件使用open打开,然后read到data,然后让etree.HTML处理这些

#然后重点时使用xpath就可以进行搜索了
>>> f=open("gov.html","r",encoding="utf8")
>>> data=f.read()

>>>f.close()
>>> html=etree.HTML(data)
>>> timus=html.xpath("//span[@class='p-ques-desc']")
>>> len(timus)
10
>>> print(timus[0].text)
可视化展示为一体的经济大数据智能分析平台:

-------

重点就是使用xpath来进行规整了

posted @   saromman  阅读(230)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示