摘要: 1.简单的分布式流程图 分布式: 多进程分布式爬虫的案例: 模块共6个:控制管理类(control_manager.py),网页内容下载类(download.py),页面解析类(Htmparse.py),数据写入类(save_manager.py),url管理类(url_manager.py),爬虫 阅读全文
posted @ 2019-09-01 21:29 张京墨 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 携程爬取阳光问帖子:进行了简单的数据存储,数据量共145226条,爬取时间为:3.65小时,实际时间感觉要多于统计时间。 代码如下: 复习协程的知识: 多线程会抢抢夺公共资源,因此会造成公共资源的不安全,需要通过线程锁进行解决,那么多个携程为什么不存在这个情况呢? 因为多个协程也是在一个线程里面进行 阅读全文
posted @ 2019-09-01 20:44 张京墨 阅读(489) 评论(0) 推荐(0) 编辑
摘要: 1.什么是docker 简单的理解:docker相当于vmvare,容器相当于多个虚拟机,vmvare上可以运行ubantu16.04的虚拟机,也可以运行centos虚拟机,还可以运行redhat虚拟机。 容器:完全隔离的环境,例如vmvare上两个虚拟机是相互隔离的。每一个虚拟机都得安装操作系统, 阅读全文
posted @ 2019-09-01 18:48 张京墨 阅读(489) 评论(0) 推荐(0) 编辑
摘要: 1. mongodb是什么? NoSQL 非关系型数据库,主要用于数据的海量存储。分为server数据存储端和client数据操作端。 关系型与非关系型数据库的区别? sql:数据库--表--数据 nosql:数据库 集合--文档 2.mongoddb优势 1. 扩展性2. 大数据型,高性能3. 灵 阅读全文
posted @ 2019-09-01 16:13 张京墨 阅读(825) 评论(0) 推荐(0) 编辑