11 2021 档案
摘要:遍历文档树 一个html或者是xml格式的文档经过bs处理后会变成一个文档树,顶级节点为一个tag,这个tag里面包含了很多个子节点,这些子节点可以是字符串也可以是tag,接下来以一段示例文档来学习遍历这个文档树。 html_doc = """<html> <head> <title>The Dor
阅读全文
摘要:bs4的四种对象 Beautiful Soup对html文档进行处理后会生成一种树形结构的数据结构,每一个节点代表一个对象,对象大致归为四类:Tag、NavigableString、BeautifulSoup、comment; Tag对象 也就是xml或者html格式文档中的一对对标签 from b
阅读全文
摘要:戳这里:bs4 的官方文档 ps:下面部分内容摘自官方文档 来自bs4的简介 Beautiful Soup是一个可以提取html或者xml这种具有格式的文件句柄或者字符串的python三方库,它可以在短时间内通过转换器对符合提取条件的文件进行批量的修改、文件指南等操作; 安装Beautiful So
阅读全文