python 爬虫 相关包
请求
1 requests
requests是Kenneth Reitz大神的著名作品之一,优点就是极度简单和好用。
HTML/XML的解析器
1 pyquery
pyquery 得名于 jQuery(知名的前端 js 库),可以用类似 jQuery 的语法解析网页。
2 lxml
lxml 有很高的解析效率,支持 xPath 语法(一种可以在 HTML 中查找信息的规则语法)
3 BeautifulSoup4
BeautifulSoup(下文简称 bs)翻译成中文就是“美丽的汤”,这个奇特的名字来源于《爱丽丝梦游仙境》(这也是为何在其官网会配上奇怪的插图,以及用《爱丽丝》的片段作为测试文本)。
介绍与使用方法 https://blog.csdn.net/baozhourui/article/details/88265531 http://www.jsphp.net/python/show-24-214-1.html
官方中文文档 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
pip install beautifulsoup4
要注意,包名是beautifulsoup4,如果不加上 4,会是老版本也就是 bs3,它是为了兼容性而存在,目前已不推荐。我们这里说 bs,都是指 bs4。
请求+解析
requests-html
这个类库是requests的兄弟,同样也是Kenneth Reitz大神的作品。它将请求网页和解析网页结合到了一起。本来如果你用requests的话只能请求网页,为了解析网页还得使用BeautifulSoup这样的解析库。现在只需要requests-html一个库就可以办到。
https://www.toutiao.com/article/6659773276664889864/
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
2015-10-17 SQL server 提示“代理XP”被关闭的解决方法