25.2.7（爬虫学习3）

接下来,我们会编写一个简单的爬虫,从一个网页上获取数据.

第一步是使用 requests 库来获取网页的内容.我们以获取百度首页为例.

import requests
 
# 发送请求获取网页内容
url = 'https://www.baidu.com'
response = requests.get(url)
 
# 打印网页内容
print(response.text)

解释：
requests.get(url) 用于向指定网址发送请求并获取网页内容.

response.text 返回网页的HTML代码.

运行后,你会看到大量的HTML代码,这就是百度首页的内容.

2. 解析网页内容
获取网页内容后,我们需要用 BeautifulSoup 库来解析HTML,提取我们需要的信息.接下来我们解析百度首页的标题.

from bs4 import BeautifulSoup
 
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
 
# 获取标题
title = soup.title.text
print('网页标题:', title)

输出：

makefile
 
 
网页标题: 百度一下,你就知道

让我们继续提取网页中的链接（<a>标签中的 href 属性）.这非常有用,例如你想抓取某个网站上的所有文章链接.

# 获取所有的<a>标签
links = soup.find_all('a')
 
# 打印所有链接
for link in links:
    href = link.get('href')
    print(href)

posted @ 2025-02-07 17:12 a_true 阅读(21) 评论(0) 收藏举报

刷新页面返回顶部

atrue