Python爬虫教程-25-数据提取-BeautifulSoup4(三)
Python爬虫教程-25-数据提取-BeautifulSoup4(三)
本篇介绍 BeautifulSoup 中的 css 选择器
css 选择器
- 使用 soup.select 返回一个列表
- 通过标签名称:soup.select("title")
- 通过类名:soup.select(".centent")
- id 查找:soup.select("#name_id")
- 组合查找:soup.select("div #input_content")
- 属性查找:soup.select("img[class='photo']")
- 获取tag内容:tag.get_text
案例
- 代码27bs5.py文件:https://xpwi.github.io/py/py爬虫/py27bs5.py
# BeautifulSoup 的使用案例
# css 选择器
from urllib import request
from bs4 import BeautifulSoup
url = 'http://www.baidu.com/'
rsp = request.urlopen(url)
content = rsp.read()
soup = BeautifulSoup(content, 'lxml')
# bs 自动解码
content = soup.prettify()
print("=="*12)
titles = soup.select("title")
print(titles[0])
print("=="*12)
meta = soup.select("meta[content='always']")
print(meta[0])
运行结果
更多文章链接:Python 爬虫随笔
- 本笔记不允许任何个人和组织转载
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步