python爬虫笔记(1、BeautifulSoup)

BeautifulSoup库
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,
所有对象可以归纳为4种:
Tag:(返回标签及其内容)
NavigableString:(返回标签内容)
BeautifulSoup对象表示一个文档的全部内容。支持遍历文档树和搜索文档树。
Comment:这个对象其实就是HTML和XML中的注释。

from bs4 import BeautifulSoup
content = "douban.html"
file = open(content,"rb")
result = file.read()
bs = BeautifulSoup(result,"html.parser")
print(bs.title) #Tag:(返回标签及其内容)
print(bs.title.string) #NavigableString:(返回标签内容)
print(type(bs))  #BeautifulSoup对象表示一个文档(这里是html文档)的全部内容。支持遍历文档树和搜索文档树。
print(len(bs.find_all("a")))

<title>豆瓣</title>

豆瓣

<class 'bs4.BeautifulSoup'>

452

posted on 2022-10-17 11:33  忆华灯纵博  阅读(20)  评论(0编辑  收藏  举报