python爬虫笔记(1、BeautifulSoup)
BeautifulSoup库
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,
所有对象可以归纳为4种:
Tag:(返回标签及其内容)
NavigableString:(返回标签内容)
BeautifulSoup对象表示一个文档的全部内容。支持遍历文档树和搜索文档树。
Comment:这个对象其实就是HTML和XML中的注释。
from bs4 import BeautifulSoup content = "douban.html" file = open(content,"rb") result = file.read() bs = BeautifulSoup(result,"html.parser") print(bs.title) #Tag:(返回标签及其内容) print(bs.title.string) #NavigableString:(返回标签内容) print(type(bs)) #BeautifulSoup对象表示一个文档(这里是html文档)的全部内容。支持遍历文档树和搜索文档树。 print(len(bs.find_all("a")))
<title>豆瓣</title>
豆瓣
<class 'bs4.BeautifulSoup'>
452