数据清理：使用lxml从HTML中删除元素,清洗,利用,移除,html,的

有一段html文本

<html>
    <head>
        <title>这是标题</title>
    </head>
    <body>
        <div>这是内容</div>
        <div>要移除的内容</div>
    </body>
</html>

我希望把 <div>要移除的内容</div> 移除

安装lxml

pip install lxml

代码实例

# -*- coding: utf-8 -*-

from lxml import etree

text = """
<html>
    <head>
        <title>这是标题</title>
    </head>
    <body>
        <div>这是内容</div>
        <div>要移除的内容</div>
    </body>
</html>"""

tree = etree.fromstring(text)

# 返回一个列表
remove_tags = tree.xpath('//div[last()]')

if remove_tags:
    remove_tag = remove_tags[0]
    remove_tag.getparent().remove(remove_tag)

print(etree.tounicode(tree))
"""
<html>
    <head>
        <title>这是标题</title>
    </head>
    <body>
        <div>这是内容</div>
        </body>
</html>
"""

最后也实现了我的要求，可以封装为单独的函数，以便调用


from lxml import etree


def remove_elements(html, xpath):
    """
    移除html 文本中的元素
    :param html: str
    :param xpath: str
    :return: str
    """
    tree = etree.fromstring(html)

    # 返回一个列表
    remove_tags = tree.xpath(xpath)

    for remove_tag in remove_tags:
        remove_tag.getparent().remove(remove_tag)

    return etree.tounicode(tree)


if __name__ == '__main__':
    text = """
    <html>
        <head>
            <title>这是标题</title>
        </head>
        <body>
            <div>这是内容</div>
            <div>要移除的内容</div>
        </body>
    </html>"""

    print(remove_elements(text, '//div[last()]'))

参考
https://lxml.de/tutorial.html

posted @ 2021-04-16 11:44 ministep88 阅读(399) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 展开说说关于C#中ORM框架的用法！

公告

网站更新内容：请访问：https://bigdata.ministep.cn/

昵称： ministep88
园龄： 4年
粉丝： 6
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

bigdata.ministep.cn

网站已迁移到：https://bigdata.ministep.cn/

数据清理：使用lxml从HTML中删除元素,清洗,利用,移除,html,的

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论