python_爬虫_str类型的html文本去标签
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | # from HTMLParser import HTMLParser from html.parser import HTMLParser # 将字符串格式的html文本转成html class MyHTMLParser(HTMLParser): def __init__( self ): HTMLParser.__init__( self ) self .data = [] def handle_startendtag( self , tag, attrs): pass def handle_endtag( self , tag): pass def handle_data( self , data): if data.count( '\n' ) = = 0 : self .data.append(data) if __name__ = = '__main__' : parser = MyHTMLParser() for i in conn(): # 获取文章 content = i[ 0 ] parser.feed(content) parser.data # 通过这个可以获取去标签后的内容列表 |
参考:https://www.cnblogs.com/AlwinXu/p/5492033.html
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 智能桌面机器人:用.NET IoT库控制舵机并多方法播放表情
· Linux glibc自带哈希表的用例及性能测试
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· DeepSeek火爆全网,官网宕机?本地部署一个随便玩「LLM探索」
· 开发者新选择:用DeepSeek实现Cursor级智能编程的免费方案
· 【译】.NET 升级助手现在支持升级到集中式包管理
· 独立开发经验谈:如何通过 Docker 让潜在客户快速体验你的系统
· Tinyfox 发生重大改版