BeautifulSoup库
1.BeautifulSoup支持的解析器:
- python标准库:BeautifulSoup(markup, "html.parser") 执行速度适中,文档容错能力强
- lxml HTML解析器:BeautifulSoup(markup, "lxml") 执行速度适快,文档容错能力强
- lxml XML解析器:BeautifulSoup(markup, "xml") 执行速度适快,唯一支持XML的解析器
- html5lib解析器:BeautifulSoup(markup, "html5lib") 最好的容错性、以浏览器的方式解析文档、生成html5格式的文档
2.find_all 返回所有查找到的元素
3.find 返回单个元素
4.CSS选择器:
- select() 直接传入CSS选择器
- get_text() 获取文本