python多进程multiprocessing模块中Queue的妙用

　　最近的部门RPA项目中，小爬为了提升爬虫性能，使用了Python中的多进程（multiprocessing）技术，里面需要用到进程锁Lock，用到进程池Pool，同时利用map方法一次构造多个process。Multiprocessing的使用确实能显著提升爬虫速度，不过程序交由用户使用时，缺乏一个好的GUI窗口来显示爬虫进度。之前的文章中使用了Chrome浏览器来渲染js脚本生成了进度条。但是鉴于Chrome在运行时十分吃内存资源，用Chrome只是生成一个进度条难免有些“大材小用”，所以，小爬决定使用Tkinter库来制作进度条，进而摆脱对chrome浏览器的依赖。

　　要制作进度条，就得有计数器存储爬虫的总数，当前的爬取数甚至是当前的耗费时间等作为存储变量。考虑到各个进程之间无法直接通信，这个当前量和总量如何得到，就只能借助multiprocessing中的Queue类了。根据官方文档，multiprocessing中的Queue 类几乎完美克隆了Queue.Queue中的功能，但是它是专为多进程间的通信单独设计的。

透过一个简单的例子看下Queue是如何运用的：

复制代码

from multiprocessing import Process, Queue

def f(q):
    q.put([42, None, 'hello'])

if __name__ == '__main__':
    q = Queue()
    p = Process(target=f, args=(q,))
    p.start()
    print q.get()    # prints "[42, None, 'hello']"
    p.join()

复制代码

从上面的例子可以看到，此处的Queue示例出的q对象非常灵活，使用Ipython的代码提示功能可以轻松知道q对象含以下方法，供用户调用：

比如：

1、它主要是通过q.put()来入列，该方法支持存入单个变量，也支持通过列表一次入列多个不同类型的元素，异常灵活多变。

2、q.qsize()可以得到当前队列的元素总数。

3、q.empty()可以判断当前队列中是否还有值，返回一个布尔型的结果。如：

In [36]: q.empty()
Out[36]: True

4、通过q.get()方法来出队列。

这样我们就可以灵活使用队列来在各进程间通信和制作进度条了。

我们在爬虫中，往往会遇到一个这样的情况，目录页和详情页的信息需要结合到一个item中存储起来，它就可以巧妙借助Queue来实现。

上面的例子中，我一次存入了url,bpmDefName,dataId,afFormNumber 等多个字段信息。

后面我们再从queue中取出一个结果，则该结果是包含 url,bpmDefName,dataId,afFormNumber 多个信息的元组。进而得到元组的每个元素与详情页的相关字段拼接到一起，形成一行信息。代码示例如下：

最后通过Q.qsize()方法判断队列中的元素是否已完全取出，来实时计算爬虫进度和决定后续动作，非常方便！

有了multiprocessing模块的Queue类和它提供的诸多方法，制作进度条和关联多个item信息，便不再是难题！

更详细的multiprocessing模块的Queue类介绍，可以参见python官方的文档说明：

https://docs.python.org/3/library/multiprocessing.html#multiprocessing.Queue

posted @ 2019-04-28 12:04 NewJune 阅读(24265) 评论(2) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识（上）
· 浏览器原生「磁吸」效果！Anchor Positioning 锚点定位神器解析

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

公告

关注我的公众号不定期推送资讯

昵称： NewJune
园龄： 6年9个月
粉丝： 69
关注： 2

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:python之批量打印网页为pdf文件（二）
请问哪里查阅到的这些属性，我想更详细的查看参数，比如尺寸设置。
--Roable
2. Re:VBA驱动SAP GUI实现办公自动化（一）
谢谢大神，有更多生成SAP报表的代码吗
--青鸟飞鱼007
3. Re:python之批量打印网页为pdf文件（一）
我是第一个网页提交了挺多任务，然后提交完后点击会新开一个网页去打印。楼主代码是新开的这一个网页直接去点击打印，怎么改一下代码啊，差最后一步点击打印
--Allen_0791
4. Re:使用windows api函数捕获SAP session的左下角消息句柄
试了多次就是引用不了“user32.dll”不知道哪里的问题
--xiaom_k
5. Re:python办公自动化系列之金蝶K3自动登录（一）
太棒了！！！全网只有这个，成功了！！！！！要用管理员身份打开K3哦
--吉被被

AI FOR CODE 大赛