python爬虫beautifulsoup4系列3
前言
本篇手把手教大家如何爬取网站上的图片,并保存到本地电脑
一、目标网站
1.随便打开一个风景图的网站:http://699pic.com/sousuo-218808-13-1.html
2.用firebug定位,打开firepath里css定位目标图片
3.从下图可以看出,所有的图片都是img标签,class属性都是lazy
二、用find_all找出所有的标签
1.find_all(class_="lazy")获取所有的图片对象标签
2.从标签里面提出jpg的url地址和title
1 # coding:utf-8
2 from bs4 import BeautifulSoup
3 import requests
4 import os
5 r = requests.get("http://699pic.com/sousuo-218808-13-1.html")
6 fengjing = r.content
7 soup = BeautifulSoup(fengjing, "html.parser")
8 # 找出所有的标签
9 images = soup.find_all(class_="lazy")
10 # print images # 返回list对象
11
12 for i in images:
13 jpg_rl = i["data-original"] # 获取url地址
14 title = i["title"] # 返回title名称
15 print title
16 print jpg_rl
17 print ""
三、保存图片
1.在当前脚本文件夹下创建一个jpg的子文件夹
2.导入os模块,os.getcwd()这个方法可以获取当前脚本的路径
3.用open打开写入本地电脑的文件路径,命名为:os.getcwd()+"\\jpg\\"+title+'.jpg'(命名重复的话,会被覆盖掉)
4.requests里get打开图片的url地址,content方法返回的是二进制流文件,可以直接写到本地
四、参考代码
from bs4 import BeautifulSoup import requests import os r = requests.get("http://699pic.com/sousuo-218808-13-1.html") fengjing = r.content soup = BeautifulSoup(fengjing, "html.parser") # 找出所有的标签 images = soup.find_all(class_="lazy") # print images # 返回list对象 for i in images: try: jpg_rl = i["data-original"] title = i["title"] print(title) print(jpg_rl) print("") with open(os.getcwd()+"\\jpg\\"+title+'.jpg', "wb") as f: f.write(requests.get(jpg_rl).content) except: pass
对python接口自动化有兴趣的,可以加python接口自动化QQ群:226296743
也可以关注下我的个人公众号:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具