摘要:
一、使用scrapy框架 首先键入"Scrapy" 进入到我们的目标文件夹 之后我们在F盘scrapy文件夹建好了dangdang项目。 二、 编辑items.py 再打开spiders/dd.py,修改起始进行爬取的网页 接下来,需要导入items.py中的内容。 都是从核心目录开始定位,文件夹文 阅读全文
摘要:
或者使用 python 3.6.x版本,可以支持中文的输入 阅读全文
摘要:
(一)安装xlsxwriter、xlrd模块 首先打开cmd,通过下列指令安装XlsxWriter(注意拼写)模块和xlrd模块 如果cmd下pip命令无法使用,则应在系统环境变量中添加python安装路径下的Script文件夹。 一台电脑若同时安装python 3.6.x 和 2.7.x版本,li 阅读全文
摘要:
Process方法: “args:”用于传递参数,作用于"target="后跟的函数 The Pipe() function returns a pair of connection objects connected by a pipe which by default is duplex (tw 阅读全文
摘要:
一、Intro 1、multiprocessing的Pool可以提供指定数量的进程供用户使用,当一个新的请求提交到pool时,若pool还没有满,则会创建一个新的进程,直到pool中的进程数达到最大。若进程池进程数已达上限,则任务将会等待,直到池中有进程结束。 2、multiprocessing的P 阅读全文
摘要:
一、Intro: 1、爬虫开发中,实现多进程是十分重要的(多个任务同时进行)。 2、时间片轮转调度算法:所有进程轮流使用CPU,每个进程占用CPU的时间很短(100ms)。用户看来仿佛所有的进程在不间断运行。 3、进程->CPU分配资源的最小单位。 线程->程序执行的最小单位。 一个进程由多个线程组 阅读全文