python系列（亲测有效）：Python爬虫常用之HtmlParser（解析html文字编码为正常显示的内容）

Python爬虫常用之HtmlParser（解析html文字编码为正常显示的内容）

Python爬虫常用之HtmlParser

Python爬虫常用之HtmlParser

HtmlParser，顾名思义，是解析Html的一个工具。python自带的。

一、常用属性和方法介绍

HtmlParser是一个类，在使用时一般继承它然后重载它的方法，来达到解析出需要的数据的目的。

1.常用属性：

lasttag，保存上一个解析的标签名，是字符串。

2.常用方法：

handle_starttag(tag, attrs) ，处理开始标签，比如<div>；这里的attrs获取到的是属性列表，属性以元组的方式展示
handle_endtag(tag) ，处理结束标签,比如</div>
handle_startendtag(tag, attrs) ，处理自己结束的标签，如<img />
<

posted @ 2024-09-04 10:53 坦笑&&life 阅读(58) 评论(0) 编辑收藏举报来源

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Python爬虫(为了迎合active，有彩蛋)

· python系列（亲测有效）：lxml数据解析小技巧； element对象转化成str, 并使用正则替换HTML标签，保留内容（gvm专用，类比pretty_print）

· python自带的用于解析HTML的库HtmlParser

· python自带的用于解析HTML的库HtmlParser

· python爬虫学习记录

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 上周热点回顾（2.24-3.2）

公告

昵称：坦笑&&life
园龄： 3年3个月
粉丝： 32
关注： 5

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:网安工具系列：灯塔资产管理系统魔改版搭建(ARL-Puls)
1
--weizhi1
2. Re:WIN10 WIN11 12代 13代大小核；性能核；电源选项；P-core,E-core；
命令1
--改善低素质
3. Re:WIN10 WIN11 12代 13代大小核；性能核；电源选项；P-core,E-core；
命令
--愁滋味
4. Re:Python系列（亲测有效）：解决 Invalid HTTP_HOST header、Python3引入ssl报错（需要重新编译，出现unrecognized options: --with-ssl）
什么原因呢，怎么解决
--sttyy0
5. Re:Centos7 安装 MySQL5.7 步骤
神！！！
--羊城晚抱