2020 年 6月 2 日随笔档案 - BruceLan

摘要： BS把HTML看做一个树形，以标签和文本为基本类型，一个标签包含其他标签，被解析为一个标签是另一个标签的子树。那么，最终整个HTML文档被解析为一棵树的形式。 BS包括四种基本类型： Soup（树），Tag（标签节点），String（字符节点），Comment... 阅读全文

posted @ 2020-06-02 23:16 BruceLan 阅读(334) 评论(0) 推荐(0) 编辑

摘要： 1、用tag获取相应代码块的剖析树： contents属性是一个列表，里面保存了该剖析树的直接儿子。如：1 html = soup.contents[0] # ... 2 head = html.contents[0] # ... 3 body = h... 阅读全文

posted @ 2020-06-02 10:21 BruceLan 阅读(69) 评论(0) 推荐(0) 编辑

蓝少