python 爬虫相关包

请求

1 requests

requests是Kenneth Reitz大神的著名作品之一，优点就是极度简单和好用。

HTML/XML的解析器

1 pyquery

pyquery 得名于 jQuery（知名的前端 js 库），可以用类似 jQuery 的语法解析网页。

2 lxml

lxml 有很高的解析效率，支持 xPath 语法（一种可以在 HTML 中查找信息的规则语法）

3 BeautifulSoup4

BeautifulSoup（下文简称 bs）翻译成中文就是“美丽的汤”，这个奇特的名字来源于《爱丽丝梦游仙境》（这也是为何在其官网会配上奇怪的插图，以及用《爱丽丝》的片段作为测试文本）。

介绍与使用方法 https://blog.csdn.net/baozhourui/article/details/88265531 http://www.jsphp.net/python/show-24-214-1.html

官方中文文档 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

pip install beautifulsoup4
要注意，包名是beautifulsoup4，如果不加上 4，会是老版本也就是 bs3，它是为了兼容性而存在，目前已不推荐。我们这里说 bs，都是指 bs4。

请求+解析

requests-html

这个类库是requests的兄弟，同样也是Kenneth Reitz大神的作品。它将请求网页和解析网页结合到了一起。本来如果你用requests的话只能请求网页，为了解析网页还得使用BeautifulSoup这样的解析库。现在只需要requests-html一个库就可以办到。

　　 https://www.toutiao.com/article/6659773276664889864/

posted @ 2022-10-17 13:31 simadi 阅读(141) 评论(0) 收藏举报

刷新页面返回顶部

python 爬虫 相关包