【Python】python3实现网页爬虫下载图片 - 梦琪小生 - 博客园

【Python】python3实现网页爬虫下载图片

复制代码

import re
import urllib.request

# ------ 获取网页源代码的方法 ---
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

# ------ getHtml()内输入任意帖子的URL ------
html = getHtml("https://tieba.baidu.com/p/5352556650")
# ------ 修改html对象内的字符编码为UTF-8 ------
html = html.decode('UTF-8')

# ------ 获取帖子内所有图片地址的方法 ------
def getImg(html):
    # ------ 利用正则表达式匹配网页内容找到图片地址 ------
    reg = r'src="([.*\S]*\.jpg)"'
    imgre = re.compile(reg);
    imglist = re.findall(imgre, html)
    return imglist

imgList = getImg(html)
imgName = 0
for imgPath in imgList:
    # ------ 这里最好使用异常处理及多线程编程方式 ------
    try:
        f = open('D:\\Temp\\'+ str(imgName)+".jpg", 'wb')
        f.write((urllib.request.urlopen(imgPath)).read())
        print(imgPath)
        f.close()
    except Exception as e:
        print(imgPath+" error")
    imgName += 1

print("All Done!")

复制代码

posted on 2017-11-02 13:36 梦琪小生阅读(30426) 评论(3) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义

历史上的今天：
2016-11-02 【WPF】TextBox样式重写注意事项

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

导航

统计

随笔 - 347
文章 - 0
评论 - 82
阅读 - 119万

公告

昵称：梦琪小生
园龄： 13年2个月
粉丝： 96
关注： 6

随笔档案

相册

梦琪小生(3)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:【转】【C#】 AForge调用摄像头
太牛了
--sch11
2. Re:【C#】自定义容器控件，设置界面控件，支持设计器拖入控件
@Sir_Chen 文章末尾有下载链接...
--梦琪小生
3. Re:【C#】自定义容器控件，设置界面控件，支持设计器拖入控件
跪求源代码,参考一下
--Sir_Chen
4. Re:【转】【C#】 AForge调用摄像头
谢谢了，很不错
--小油2018
5. Re:OpenXml 学习记录标签目录插入文本表格图片
@十色怎么指定插入位置我当时做的是word模板里面有固定符号比如 ##1##，这种，就知道这个1位置需要替换成什么东西。使用替换来实现指定位置插入...
--梦琪小生