Python爬虫案例教学演示:爬取“绝对领域”二次元小姐姐图片
Python爬虫、数据分析、网站开发等案例教程视频免费在线观看
https://space.bilibili.com/523606542
前言
今天带大家采集一个二次元图片网站, 里面漂亮的小姐姐层出不穷,图片的数据量也是比较大的, 来一睹为快吧! !

开发环境介绍:
python 3.6
pycharm
requests
parsel
os
爬虫案例数据采集一般步骤:
-
找数据对应的链接地址
-
代码发送地址的请求
-
数据解析<解析我们要的数据>
-
数据保存(本地)
1. 首先第一步,找到对应的链接地址
因为是静态网页,所以数据很容易就找到了

# url编码: 中文在请求和响应的时候转码, http协议默认不支持中文, 由 % 字母 数字 request_address = f'https://www.jdlingyu.com/tag/%e5%b0%91%e5%a5%b3/page/{page}' # 代表浏览器身份标识 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
2. 代码发送地址的请求
response = requests.get(url=request_address, headers=headers) html_data = response.text # 字符串 -- 正则 print(html_data)
请求一下,看看对不对
3. 数据解析<解析我们要的数据> html数据, xpath
selector = parsel.Selector(html_data) # 转换数据类型 lis = selector.xpath('//div[@id="post-list"]/ul/li') # 所有相册的标签 for li in lis: # 一个一个操作相册标签对象 pic_title = li.xpath('.//h2/a/text()').get() # 相册标题 pic_href = li.xpath('.//h2/a/@href').get() # 相册地址 print(pic_title, pic_href)

4. 保存数据
with open(f'img\\{pic_title}\\{pic_name}', mode='wb') as f: f.write(img_data) print('保存完成:', pic_name)
完整源码加Python学习交流群:1039649593找管理员免费获取
运行完整代码

标签:
Python案例教学
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)