摘要: 所谓IO密集型任务,是指磁盘IO、网络IO占主要的任务,计算量很小。比如请求网页、读写文件等。当然我们在Python中可以利用sleep达到IO密集型任务的目的。 所谓计算密集型任务,是指CPU计算占主要的任务,CPU一直处于满负荷状态。比如在一个很大的列表中查找元素(当然这不合理),复杂的加减乘除 阅读全文
posted @ 2018-07-27 15:47 心脏咚个不停 阅读(863) 评论(0) 推荐(0) 编辑
摘要: 确保2点: 1.把爬虫.py复制到spiders文件夹里 如执行scrapy crawl demo ,spiders里面就要有demo.py文件 2.在项目文件夹内执行命令 在scrapy.cfg所在文件夹里执行命令 阅读全文
posted @ 2018-05-18 17:08 心脏咚个不停 阅读(617) 评论(0) 推荐(0) 编辑
摘要: 1.打开cmd命令行工具,输入scrapy startproject 项目名称 2.使用pycharm打开项目,查看项目目录 3.创建爬虫,打开CMD,cd命令进入到爬虫项目文件夹,输入scrapy genspider 爬虫文件名 爬虫基础域名 4.打开pycharm,发现spider目录下多出一个 阅读全文
posted @ 2018-05-18 16:35 心脏咚个不停 阅读(2444) 评论(0) 推荐(0) 编辑
摘要: Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供 阅读全文
posted @ 2018-05-18 15:06 心脏咚个不停 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 有些地方代码有些冗余,还可以再改进 但是费了些功夫终于爬出的效果 确实想要快点编辑出来 按耐不住小激动 这应该就是敲代码的乐趣 当播放一个音乐的时候 在Elements中 可以看到音乐的链接 当然是通过js 和 css 加载过的 但是 可以用逆向思维进行参数的找寻 http://dl.stream. 阅读全文
posted @ 2018-05-16 20:15 心脏咚个不停 阅读(1500) 评论(0) 推荐(0) 编辑
摘要: http://jiyan.c2567.com/index.html 阅读全文
posted @ 2018-05-15 20:24 心脏咚个不停 阅读(340) 评论(0) 推荐(0) 编辑
摘要: import pymongo MONGO_HOST = 'localhost' MONGO_PORT = 27017 MONGO_DB = 'today' MONGO_COLL = 'mm' class MingyanPipeline(object): def process_item(self, item, spider): # mongo mongo_cl... 阅读全文
posted @ 2018-05-09 09:06 心脏咚个不停 阅读(186) 评论(0) 推荐(0) 编辑