25.2.7(爬虫学习3)

三、简单爬虫示例

接下来,我们会编写一个简单的爬虫,从一个网页上获取数据.

1. 获取网页内容

第一步是使用 requests 库来获取网页的内容.我们以获取百度首页为例.

import requests
 
# 发送请求获取网页内容
url = 'https://www.baidu.com'
response = requests.get(url)
 
# 打印网页内容
print(response.text)

解释:
requests.get(url) 用于向指定网址发送请求并获取网页内容.

response.text 返回网页的HTML代码.

运行后,你会看到大量的HTML代码,这就是百度首页的内容.

2. 解析网页内容
获取网页内容后,我们需要用 BeautifulSoup 库来解析HTML,提取我们需要的信息.接下来我们解析百度首页的标题.

from bs4 import BeautifulSoup
 
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
 
# 获取标题
title = soup.title.text
print('网页标题:', title)
解释:
  • BeautifulSoup(response.text, 'html.parser') 用于解析HTML内容.

  • soup.title.text 返回网页的标题.

输出:

makefile
 
 
网页标题: 百度一下,你就知道
3. 提取更多信息

让我们继续提取网页中的链接(<a>标签中的 href 属性).这非常有用,例如你想抓取某个网站上的所有文章链接.

# 获取所有的<a>标签
links = soup.find_all('a')
 
# 打印所有链接
for link in links:
    href = link.get('href')
    print(href)
解释:
  • soup.find_all('a') 用于获取网页中的所有链接.

  • link.get('href') 获取每个链接的 href 属性,也就是网址.

posted @   a_true  阅读(2)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)
历史上的今天:
2024-02-07 24.2.7
点击右上角即可分享
微信分享提示