摘要: 已经写了好几篇的网络爬虫了,都是单个应用程序,那个下面介绍一下简单易扩展的爬虫架构; 应用场景是:爬取百度百科搜索关键字的1000个相关链接及相应的简介; 模块介绍: 首先是我们的主调度程序spidermain,用来决定从哪个地开始爬取及调用相关模块; urlmanager 用来管理目标URL,对于 阅读全文
posted @ 2017-12-10 16:04 mail_maomao 阅读(249) 评论(0) 推荐(0) 编辑
摘要: Selenium模块是一套完整的Web应用程序测试系统,它包含了测试的录制(SeleniumIDE)、编写及运行(Selenium Remote Control)和测试的并行处理(Selenimu Grid); 那么我们在编写网络爬虫时主要用来了Selenium 的Webdriver 模块 ; 在以 阅读全文
posted @ 2017-12-10 15:38 mail_maomao 阅读(419) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 一、简介 Linux容器作为一类操作系统层面的虚拟化技术成果,旨在立足于单一Linux主机交付多套隔离性Linux环境。与虚拟机不同,容器系统并不需要运行特定的访客操作系统。相反,容器共享同一套主机操作系统内核,同时利用访客操作系统的系统库以交付必要的系统功能。由于无需借助于专门的操作 阅读全文
posted @ 2017-12-10 14:46 mail_maomao 阅读(409) 评论(0) 推荐(0) 编辑