python基础学习-CSS选择器解析HTML
对于熟悉 CSS 选择器和 JavaScript 的开发者来说,通过 CSS 选择器获取页面元素可能是更为简单的选择,因为浏览器中运行的 JavaScript 本身就可以document
对象的querySelector()
和querySelectorAll()
方法基于 CSS 选择器获取页面元素。在 Python 中,我们可以利用三方库beautifulsoup4
或pyquery
来做同样的事情。Beautiful Soup 可以用来解析 HTML 和 XML 文档,修复含有未闭合标签等错误的文档,通过为待解析的页面在内存中创建一棵树结构,实现对从页面中提取数据操作的封装。可以用下面的命令来安装 Beautiful Soup。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | import bs4 import requests for page in range ( 1 , 11 ): resp = requests.get( url = f 'https://movie.douban.com/top250?start={(page - 1) * 25}' , headers = { 'User-Agent' : 'BaiduSpider' } ) # 创建BeautifulSoup对象 soup = bs4.BeautifulSoup(resp.text, 'html.parser' ) # 通过CSS选择器从页面中提取包含电影标题的span标签 title_spans = soup.select( 'div.info > div.hd > a > span:nth-child(1)' ) # 通过CSS选择器从页面中提取包含电影评分的span标签 rank_spans = soup.select( 'div.info > div.bd > div > span.rating_num' ) for title_span, rank_span in zip (title_spans, rank_spans): print (title_span.text, rank_span.text) |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人