25.2.8（爬虫学习4）

四、爬虫的分类
1. 简单爬虫（静态网页）
如果网页是静态的,所有的数据直接在HTML代码中呈现,这种网页最容易爬取.以上示例就是一个典型的静态网页爬虫.

2. 动态爬虫（处理JavaScript生成的内容）
有些网页的数据不是直接在HTML中,而是通过JavaScript动态生成的.这类网页需要更复杂的处理方式,通常我们会使用 Selenium 这样的库来模拟浏览器操作.

安装 Selenium:

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

Selenium 可以像真实的用户一样与网页交互,甚至可以点击按钮、滚动页面等.比如要爬取动态生成的数据,我们可以使用Selenium来加载网页.

示例：

from selenium import webdriver
 
# 设置浏览器驱动路径
driver = webdriver.Chrome()
 
# 打开网页
driver.get('https://www.example.com')
 
# 获取网页标题
print(driver.title)
 
# 关闭浏览器
driver.quit()

3. 爬虫框架（Scrapy）

当你需要大规模爬取数据时,可以使用专门的爬虫框架——Scrapy.Scrapy 是一个强大的爬虫框架,具有异步、高效的特点,适合用于构建复杂的爬虫.

安装 Scrapy:

pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

posted @ 2025-02-08 22:02 a_true 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部

atrue

25.2.8（爬虫学习4）

示例：

3. 爬虫框架（Scrapy）

安装 Scrapy:

公告