摘要: 1.开发伊始 根据源码中RequestHandler类中发现__init__函数中会调用自身initialize函数,此函数中为pass,即可以围绕initialize开发一系列的组件 2.开发实现 通过继承实现接口initialize的重写 3.具体代码与实现过程 1)接口 2)session 3 阅读全文
posted @ 2019-04-28 10:30 爱学习的红领巾 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 1.调度器 利用队列实现调度器功能 2.引擎 3.爬虫对象 4.爬虫进程 爬虫的实例化,和爬取工作的开启 5.Request 用于存储爬虫每一个url与其对应的处理函数。 6.main 7.spider 爬虫类格式,parse为回调函数,后续还能继续添加回调函数 阅读全文
posted @ 2019-04-28 10:04 爱学习的红领巾 阅读(205) 评论(0) 推荐(0) 编辑