python 做爬虫真的很慢吗？（协程并发测试）

总有人说python做爬虫速度慢，能开并发数少，至于为什么慢就是说不上来，今天就是测试一下python语言的速度和并发数量。

在网络爬虫中，影响速度的有数据下载，数据解析，数据存储，最主要的影响是数据下载和数据存储，数据下载影响是网络IO，数据存储是磁盘IO，本次模拟数据下载是1s，然后数据存储直接是把数据存储到redis中，redis是内网的redis库。下面一次并发10w,100w,100w个任务的耗时情况。

服务器是使用的个人笔记本，配置如下

测试代码如下：

复制代码

#-*-coding:utf-8-*-
import time
from gevent import monkey
monkey.patch_all()
import gevent
import redis

RedisDatabases = {
    "host": "10.10.25.207",
    "port": "6379",
}

r = redis.Redis(host=RedisDatabases['host'],port=RedisDatabases['port'], db=0)

def spider(item):
    time.sleep(1)
    r.sadd('test',item)

if __name__ == "__main__":


    start_time = time.time()

    result_List = [page for page in range(10000)]
    print ("本次接口获得的IP个数是：", len(result_List))
    from gevent import pool

    pool = pool.Pool(128)
    jobs = []
    for item in result_List:
        proxie = item
        jobs.append(pool.spawn(spider, item))
    gevent.joinall(jobs, timeout=3600)
    print("程序验证耗时：", time.time() - start_time)

复制代码

测试一：

　　1w个任务，并发数128 耗时

　　

测试二：

　　10w个任务，并发数128 耗时

　　

测试三：

　　100w个任务，并发数128 耗时

测试四：

　　100w个任务，并发数256 耗时

测试五：

　　100w个任务，并发数512耗时

测试六：

　　100w个任务，并发数1024耗时

　　

测试七：

　　100w个任务，并发数2048耗时

　　

测试八：

　　100w个任务，并发数4096耗时

　　

测试九：

　　100w个任务，并发数8192耗时

　　

　　并发数 8192 耗时521s，并且redis连接错误1785个，有时候不是并发数开的越大速度就越快

统计图：

　　　　

总结：

　　　　　　　　　　　　

　　影响爬虫因素的方式是多种多样的，比如数据下载，数据存储，数据解析，数据库连接，cpu，内存，路由器，带宽等因素，但是绝对不是因为python是解释型语言，它的速度就应该理所当然的比其他的开发语言慢，强制说python做爬虫就比go做爬虫慢或者能开的并发数量少，这肯定是片面的认知。用python做爬虫主要是优点是开发速度快，代码维护方便，如果一味的追求效率，可以用c或者c++,开发半个月，维护要两天，等爬到数据的时候，黄花菜都凉了。

posted @ 2022-08-01 18:15 淋哥阅读(840) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· selenium 速度慢的问题

· Python + redis 实现布隆过滤器

· 用爬虫来学习 Python 并发编程

· 用爬虫来学习 Python 并发编程

· 如何提高爬虫获取效率

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

历史上的今天：
2018-08-01 爬虫大规模数据采集心得和示例

公告

昵称：淋哥
园龄： 8年10个月
粉丝： 229
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

最新随笔

随笔分类 (338)

随笔档案 (452)

文章分类 (6)

文章档案 (19)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:wxauto 简单操作微信发送消息
使用场景是什么，你们公司不让装微信？
--了悟
2. Re:wxauto 简单操作微信发送消息
这个会被官方检测到封号吗？
--我将一人成团
3. Re:python 实现 AES CBC模式加解密
python 版本使用 python2.7
--淋哥
4. Re:python 实现 AES ECB模式加解密
感谢大佬！！参考了您的文章里的一行代码（把您的文章链接放到文末了），我写了个更详细的Python的AES工具类，也是ECB模式+Pkcs7 padding的，...
--RedB
5. Re:python 实现 AES ECB模式加解密
不过padding官方现在有库了，很方便，默认就是pkcs7 from Crypto.Util.Padding import pad, unpad pad(plaintext_bytes, 16)...
--RedB
6. Re:python 实现 AES ECB模式加解密
赞诶~
--RedB
7. Re:python 验证码识别示例（二）复杂验证码识别
@无觉-李敏留个联系方式...
--求教学路
8. Re:python 验证码识别示例（二）复杂验证码识别
@土豆3000 留个联系方式...
--求教学路
9. Re:使用 python set 去重速度到底是多快呢？？？
太快了
--梁不工
10. Re:Mysql 的位运算符详解，mysql的优先级
楼主能不能在写的通俗易懂。
--孟江湖
11. Re:python 验证码识别示例（二）复杂验证码识别
报错报错。。。
--土豆3000
12. Re:python 验证码识别示例（二）复杂验证码识别
fenlei. part ???这辛苦博主放出来
--无觉-李敏
13. Re:python得到今天前的七天每天日期
date_to = datetime.datetime(day.year, day.month, day.day) 不重新生成date_to对象，直接用str(day)也是可以的吧？...
--小伍子
14. Re:Python 爬虫实例（15）爬取汽车之家（汽车授权经销商）
Python 汽车之家全系车型参数(包含历史停售车型) 最全
--唐僧洗头
15. Re:python 线程池的实现
你程序末尾没有main.stop()，你这个线程池是抄的，但是少了一行。
--北风之神0509
16. Re:Python Tensorflow CNN 识别验证码
大佬，代码和文件还有吗
--bcaixl
17. Re:Python得到两个时间段的每一天的列表
666
--月河
18. Re:python 日志的配置，python对日志封装成类，日志的调用
你这个日志如果放在函数里面实例化，函数被多次调用，或者在for循环里面实例化，将会发生高斯求和的惨绝人寰的重复记录。详细看第readme九章的介绍演示有多惨...
--北风之神0509
19. Re:python 验证码识别示例（二）复杂验证码识别
能分享下fenlei及part的文件夹吗
--凹凸曼不打小怪兽
20. Re:Python 运行效率为何低
pypy你怎么看呢
--MMMssg