多线程爬虫
多线程爬虫
-
程序、进程和线程。
程序:就相当于一个应用。
进程:程序运行资源(内存资源)分配的最小单位,一个程序可以有多个进程。
线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。
线程的划分尺度比进程更小。-
为什么多进程和多线程可以提高程序的运行速度?
1、提高程序的运行速度的第一种方法:提高cpu的利用率。
解决的方式:cpu不用休息就可以做到。
现在我们的程序有一个线程。cpu就只处理他。
如果在程序中遇到:阻塞。一旦阻塞了,cpu就休息了。休息的这段时间,就浪费了cpu的资源。
有两种方式可以阻塞:- time.sleep()
- 遇到io
-
多线程:多个任务。cpu会在这多个任务之间切换,如果其中一个线程阻塞了,cpu不会休息,会处理其他线程。
1、提高程序运行速度第二种方法:增加cpu,让每个cpu处理一个任务。
cpu的多核的。---利用cpu的多核进行解决。---cpu每一个核处理一个进程。--用多进程去处理。
2、并发和并行。
《操作系统原理》
《编译原理》
《数据结构和算法》
全局性解释锁:python多任务处理效率并不好。
cpython--c
语言实现的编译器---默认。
jpython---java
实现的
pypython--python
语言实现的。
-