python_爬虫_str类型的html文本去标签
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | # from HTMLParser import HTMLParser from html.parser import HTMLParser # 将字符串格式的html文本转成html class MyHTMLParser(HTMLParser): def __init__( self ): HTMLParser.__init__( self ) self .data = [] def handle_startendtag( self , tag, attrs): pass def handle_endtag( self , tag): pass def handle_data( self , data): if data.count( '\n' ) = = 0 : self .data.append(data) if __name__ = = '__main__' : parser = MyHTMLParser() for i in conn(): # 获取文章 content = i[ 0 ] parser.feed(content) parser.data # 通过这个可以获取去标签后的内容列表 |
参考:https://www.cnblogs.com/AlwinXu/p/5492033.html
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步