摘要:
pyspider源码解读--调度器scheduler.py
首先从pyspider的根目录下找到/pyspider/scheduler/scheduler.py
其中定义了四个类:
class Project(object)
class Scheduler(object)
class OneScheduler(Scheduler)
class ThreadBaseScheduler(Scheduler) 阅读全文
摘要:
pyspider操作千万级库,pyspider在对接量级较大库的策略
如果是需要pyspider正常的流程去执行,那必然是会在on_strat()时任务执行超时,可能只读取出几万条或十几万条数据就会被破终止,然后执行index_page(),由于这个超时时间限制,且self.crawl()之后程序不是异步的,会暂时阻塞在on_start()这一步,若是异步的,可能情况会好点,但也可能会因为mysql读库太快,导致中间沉积大量任务,需要其他的思路去解决这个问题。 阅读全文