摘要: BS把HTML看做一个树形,以标签和文本为基本类型,一个标签包含其他标签,被解析为一个标签是另一个标签的子树。那么,最终整个HTML文档被解析为一棵树的形式。 BS包括四种基本类型: Soup(树),Tag(标签节点),String(字符节点),Comment... 阅读全文
posted @ 2020-06-02 23:16 BruceLan 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 1、用tag获取相应代码块的剖析树: contents属性是一个列表,里面保存了该剖析树的直接儿子。 如:1 html = soup.contents[0] # ... 2 head = html.contents[0] # ... 3 body = h... 阅读全文
posted @ 2020-06-02 10:21 BruceLan 阅读(69) 评论(0) 推荐(0) 编辑