python爬虫笔记（1、BeautifulSoup）

BeautifulSoup库
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,
所有对象可以归纳为4种:
Tag:（返回标签及其内容）
NavigableString:（返回标签内容）
BeautifulSoup对象表示一个文档的全部内容。支持遍历文档树和搜索文档树。
Comment:这个对象其实就是HTML和XML中的注释。

from bs4 import BeautifulSoup
content = "douban.html"
file = open(content,"rb")
result = file.read()
bs = BeautifulSoup(result,"html.parser")
print(bs.title) #Tag:（返回标签及其内容）
print(bs.title.string) #NavigableString:（返回标签内容）
print(type(bs))  #BeautifulSoup对象表示一个文档(这里是html文档)的全部内容。支持遍历文档树和搜索文档树。
print(len(bs.find_all("a")))

豆瓣

452

posted on 2022-10-17 11:33 忆华灯纵博阅读(20) 评论(0) 编辑收藏举报