python使用lxml库进行本地html文件的内容提取

从某些网站上得到了一些考试题目，但是人家的排版时：题目、选项、正确答案

怎么才能把题目都提取到文件的一列，选项提取到一列，答案提取到一列呢？

使用了lxml这个库，不过这个库需要安装: pip install lxml

>>> from lxml import etree

#打开这个本地文件，然后把这个html文件使用open打开，然后read到data，然后让etree.HTML处理这些

#然后重点时使用xpath就可以进行搜索了
>>> f=open("gov.html","r",encoding="utf8")
>>> data=f.read()

>>>f.close()
>>> html=etree.HTML(data)
>>> timus=html.xpath("//span[@class='p-ques-desc']")
>>> len(timus)
10
>>> print(timus[0].text)
可视化展示为一体的经济大数据智能分析平台：

-------

重点就是使用xpath来进行规整了

posted @ 2023-02-11 22:15 saromman 阅读(230) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 浏览器的F12控制台手工拔下来作业提交的清单

· 使用正则替换文本文件内的一些无用字符

· 23.Python lxml库的安装和使用

· 24. Python lxml库的安装和使用

· lxml模块

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称： saromman
园龄： 2年11个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

python使用lxml库进行本地html文件的内容提取

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜