2017 年 12月 6 日随笔档案 - 大自然的流风

2017年12月6日

摘要： pyspider源码解读--调度器scheduler.py 首先从pyspider的根目录下找到/pyspider/scheduler/scheduler.py 其中定义了四个类： class Project(object) class Scheduler(object) class OneScheduler(Scheduler) class ThreadBaseScheduler(Scheduler) 阅读全文

posted @ 2017-12-06 17:58 大自然的流风阅读(2178) 评论(0) 推荐(1) 编辑

pyspider操作千万级库，pyspider在对接量级较大库的策略

摘要： pyspider操作千万级库，pyspider在对接量级较大库的策略如果是需要pyspider正常的流程去执行，那必然是会在on_strat()时任务执行超时，可能只读取出几万条或十几万条数据就会被破终止，然后执行index_page()，由于这个超时时间限制，且self.crawl()之后程序不是异步的，会暂时阻塞在on_start()这一步，若是异步的，可能情况会好点，但也可能会因为mysql读库太快，导致中间沉积大量任务，需要其他的思路去解决这个问题。阅读全文

posted @ 2017-12-06 17:50 大自然的流风阅读(659) 评论(0) 推荐(0) 编辑

大自然的流风

在关键时刻听从自己内心的声音！

公告