【Python爬虫】入门级爬虫案例,20行代码爬取网站图片(附源码)
知识点
- 爬虫的步骤
- requests
- parsel
- xpath数据解析
1.获取网页地址 (目标地址)
2.发送请求
3.数据解析
4.保存 本地
目标网址:https://hdqwalls.com/
网站是静态数据,那么只要找到它的规律,以及url地址就行
import requests import parsel
url =f'https://hdqwalls.com/latest-wallpapers/page/1' # url = 'https://hdqwalls.com' # 请求头 伪装 爬虫:伪装成客户端向服务器发送数据请求 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' } requ = requests.get(url=url, headers=headers).text
sel = parsel.Selector(requ) # <Selector xpath=None data='<html lang="en">\n<head>\n<script src="...'> pic_html = sel.xpath('//body/div/div[3]/div/a[1]/@href').getall() for html in pic_html: pic_html = 'https://hdqwalls.com' + html requ2 = requests.get(url=pic_html, headers=headers).text sel2 = parsel.Selector(requ2) title = sel2.xpath('//body/header/div/div/h1/text()').get().strip() href = sel2.xpath('//body/div/div[2]/div/div/div/a/@href').get() # 二进制请求 requ3 = requests.get(url=href, headers=headers).content
with open('壁纸\\' + title + '.jpg', mode='wb')as fp: fp.write(requ3) print(title, '下载完成')
import requests import parsel for page in range(1,6): # 包头不包尾 url =f'https://hdqwalls.com/latest-wallpapers/page/{page}' # url = 'https://hdqwalls.com' # 请求头 伪装 爬虫:伪装成客户端向服务器发送数据请求 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' } requ = requests.get(url=url, headers=headers).text # <Response [200]> 数据请求成功 sel = parsel.Selector(requ) # <Selector xpath=None data='<html lang="en">\n<head>\n<script src="...'> pic_html = sel.xpath('//body/div/div[3]/div/a[1]/@href').getall() for html in pic_html: pic_html = 'https://hdqwalls.com' + html requ2 = requests.get(url=pic_html, headers=headers).text sel2 = parsel.Selector(requ2) title = sel2.xpath('//body/header/div/div/h1/text()').get().strip() href = sel2.xpath('//body/div/div[2]/div/div/div/a/@href').get() # 二进制请求 requ3 = requests.get(url=href, headers=headers).content with open('壁纸\\' + title + '.jpg', mode='wb')as fp: fp.write(requ3) print(title, '下载完成') print(f'----------------------第{page}页下载完成----------------------')
分类:
Python爬虫案例分享
标签:
Python案例教学
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
· [.NET]调用本地 Deepseek 模型
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· DeepSeek “源神”启动!「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 我与微信审核的“相爱相杀”看个人小程序副业
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~