Python网络爬虫【持续更新】-BeautifulSoup库的使用

BeautifulSoup

什么是BeautifulSoup
BeautifulSoup的基本用法

解析器
基本元素
遍历方式
HTML格式化和编码

什么是BeautifulSoup

Beautiful Soup是一个Python包，功能包括解析HTML、XML文档、修复含有未闭合标签等错误的文档（此种文档常被称为tag soup）。这个扩展包为待解析的页面创建一棵树，以便提取其中的数据，这在网络数据采集时非常有用.

BeautifulSoup的基本用法

解析器

在这里插入图片描述

基本元素

在这里插入图片描述
基本元素在html文档中的位置：

遍历方式

遍历方式有上行遍历、下行遍历和平行遍历。不同的功能需要利用到不同的遍历方式。
在这里插入图片描述
下行遍历对应的功能(contents和children的效果一致，只是返回的对象类型不一样，并且他们返回的都是直接儿子节点，descendants返回的是所有的子孙节点）

上行遍历对应的功能(parent返回的是直接先辈标签，parents返回的是所有的先辈)
在这里插入图片描述
平行遍历对应的功能（注意，这里的平时遍历，必须是发生在同一个父亲节点下的平行遍历，如下图就不是平行遍历）

总结

HTML格式化和编码

soup.prettify()函数可以解析HTML，将每一个标签和内容后面都加上/n换行符。

beautifulSoup将所有的HTML文件都转换成了UTF-8编码，所以中文字符可以很方便的在程序中显示出来。（注意Python3以上默认UTF-8编码，Python3以下建议更新到Python3）

posted @ 2020-03-13 15:41 南孚先生阅读(226) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称：南孚先生
园龄： 6年1个月
粉丝： 7
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

南孚先生

Python网络爬虫【持续更新】-BeautifulSoup库的使用

BeautifulSoup

什么是BeautifulSoup

BeautifulSoup的基本用法

解析器

基本元素

遍历方式

HTML格式化和编码

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论