摘要: Scrapy 是采用Python 开发的一个快速可扩展的抓取WEB 站点内容的爬虫框架。Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是 阅读全文
posted @ 2018-04-11 12:18 01234567 阅读(661) 评论(0) 推荐(0) 编辑
摘要: lvs-linux虚拟化服务器;lvs集群采用IP负载均衡技术和基于内容分发机制;一:是通过IPVS模块实现的二:集群采用的是 三层结构 三:IPVS实现负载均衡有3中方式 四:负载算法 五:安装配置 1、查看 lvs规则表 2、IPVS 调度状态: 3、添加虚拟服务 4、在虚拟服务后添加真实服务器 阅读全文
posted @ 2018-04-11 11:44 01234567 阅读(345) 评论(0) 推荐(0) 编辑
摘要: MFSMooseFS 文件系统 可以实现RAID 功能;节约成本 实现在线扩展;是一种半分布式文件系统。 一、MFS文件系统的组成 1、mfsmaster 元数据服务器。 在整个体系中负责管理管理文件系统,目前MFS只支持一个元数据服务器master,这是一个单点故障,需要一个性能稳定的服务器来充当 阅读全文
posted @ 2018-04-11 11:19 01234567 阅读(377) 评论(0) 推荐(0) 编辑
摘要: 一、Apache Storm Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt,bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout 阅读全文
posted @ 2018-04-11 11:05 01234567 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 一、Zookeeper ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目标 阅读全文
posted @ 2018-04-11 10:32 01234567 阅读(883) 评论(0) 推荐(0) 编辑