摘要: 一、使用scrapy框架 首先键入"Scrapy" 进入到我们的目标文件夹 之后我们在F盘scrapy文件夹建好了dangdang项目。 二、 编辑items.py 再打开spiders/dd.py,修改起始进行爬取的网页 接下来,需要导入items.py中的内容。 都是从核心目录开始定位,文件夹文 阅读全文
posted @ 2018-02-28 16:18 一条鲈鱼 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 或者使用 python 3.6.x版本,可以支持中文的输入 阅读全文
posted @ 2017-10-27 16:25 一条鲈鱼 阅读(364) 评论(0) 推荐(0) 编辑
摘要: (一)安装xlsxwriter、xlrd模块 首先打开cmd,通过下列指令安装XlsxWriter(注意拼写)模块和xlrd模块 如果cmd下pip命令无法使用,则应在系统环境变量中添加python安装路径下的Script文件夹。 一台电脑若同时安装python 3.6.x 和 2.7.x版本,li 阅读全文
posted @ 2017-10-24 00:35 一条鲈鱼 阅读(323) 评论(0) 推荐(0) 编辑
摘要: Process方法: “args:”用于传递参数,作用于"target="后跟的函数 The Pipe() function returns a pair of connection objects connected by a pipe which by default is duplex (tw 阅读全文
posted @ 2017-10-22 23:51 一条鲈鱼 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 一、Intro 1、multiprocessing的Pool可以提供指定数量的进程供用户使用,当一个新的请求提交到pool时,若pool还没有满,则会创建一个新的进程,直到pool中的进程数达到最大。若进程池进程数已达上限,则任务将会等待,直到池中有进程结束。 2、multiprocessing的P 阅读全文
posted @ 2017-10-19 18:03 一条鲈鱼 阅读(474) 评论(0) 推荐(0) 编辑
摘要: 一、Intro: 1、爬虫开发中,实现多进程是十分重要的(多个任务同时进行)。 2、时间片轮转调度算法:所有进程轮流使用CPU,每个进程占用CPU的时间很短(100ms)。用户看来仿佛所有的进程在不间断运行。 3、进程->CPU分配资源的最小单位。 线程->程序执行的最小单位。 一个进程由多个线程组 阅读全文
posted @ 2017-10-18 14:04 一条鲈鱼 阅读(168) 评论(0) 推荐(0) 编辑