25.2.7(爬虫学习3)
三、简单爬虫示例
接下来,我们会编写一个简单的爬虫,从一个网页上获取数据.
1. 获取网页内容
第一步是使用 requests
库来获取网页的内容.我们以获取百度首页为例.
import requests # 发送请求获取网页内容 url = 'https://www.baidu.com' response = requests.get(url) # 打印网页内容 print(response.text)
解释:
requests.get(url) 用于向指定网址发送请求并获取网页内容.
response.text 返回网页的HTML代码.
运行后,你会看到大量的HTML代码,这就是百度首页的内容.
2. 解析网页内容
获取网页内容后,我们需要用 BeautifulSoup 库来解析HTML,提取我们需要的信息.接下来我们解析百度首页的标题.
from bs4 import BeautifulSoup # 解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取标题 title = soup.title.text print('网页标题:', title)
解释:
-
BeautifulSoup(response.text, 'html.parser')
用于解析HTML内容. -
soup.title.text
返回网页的标题.
输出:
makefile
网页标题: 百度一下,你就知道
3. 提取更多信息
让我们继续提取网页中的链接(<a>
标签中的 href
属性).这非常有用,例如你想抓取某个网站上的所有文章链接.
# 获取所有的<a>标签 links = soup.find_all('a') # 打印所有链接 for link in links: href = link.get('href') print(href)
解释:
-
soup.find_all('a')
用于获取网页中的所有链接. -
link.get('href')
获取每个链接的href
属性,也就是网址.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)
2024-02-07 24.2.7