摘要: Leader Election Zookeeper的基本操作 Zookeeper虽然是分布式系统,但它并不是为文件存储而设计的,Zookeeper里存储的一般是配置信息和源信息。实际上,Zookeeper在每个节点上存储大小都在1M一下(通常是远小于1M) 基于Zookeeper的Leader El 阅读全文
posted @ 2017-08-23 21:24 一寂知千秋 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 技术选型 在后期项目跑通之后我们可以选用Zookeeper来实现监控功能。 部署方案 爬虫项目:堕胎服务器 网站爬虫分类URL定时项目:一台服务器 Hbase数据库:集群 Solr服务器:集群 Redis服务器:集群 爬虫监控项目:一台服务器 Web项目:多台服务器 Zookeeper服务器:集群 阅读全文
posted @ 2017-08-23 21:19 一寂知千秋 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 总体架构解析 数据流向 模块划分 各模块解读 总体架构解析: 数据流向 模块划分 数据采集模块解读 数据分析模块解读: 报表管理模块解读 系统管理与监控模块解读 阅读全文
posted @ 2017-08-21 22:29 一寂知千秋 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 难点分析 1.网站采取反爬策略 2.网站模板定期变动 3.网站url抓取失败 4.网站频繁抓取ip被封 1.网站采取反爬策略 》网站默认对方正常访问的方式是浏览器访问而不是代码访问,为了防止对方使用大规模服务器进行爬虫从而导致自身服务器承受过大的压力,通常网站会采取反爬策略 根据这一特性,我们用代码 阅读全文
posted @ 2017-08-21 22:26 一寂知千秋 阅读(2739) 评论(0) 推荐(0) 编辑
摘要: 今天安装storm集群的时候,各个进程也都起来,却发现Storm ui界面下无法观察Storm集群的状态 有很多地方处理不当都会造成这种现象: 1.storm.yaml配置不当 2.防火墙的问题 3.启动顺序的问题 启动nimbus后台运行:bin/storm nimbus < /dev/null 阅读全文
posted @ 2017-08-21 18:53 一寂知千秋 阅读(1412) 评论(0) 推荐(0) 编辑
摘要: Zookeeper Zookeeper是一个高性能分布式应用协调服务 》Naming Service 》配置管理 》Leader Election 》服务发现 》同步 》Group Service 》Barrier 》分布式队列(其实zookeeper并不适合作为分布式队列,性能不高只不过在特定场合 阅读全文
posted @ 2017-08-20 17:44 一寂知千秋 阅读(16053) 评论(0) 推荐(0) 编辑
摘要: 数据辅助与Failover CAP理论(它具有一致性、可用性、分区容忍性) CAP理论:分布式系统中,一致性、可用性、分区容忍性最多只可同时满足两个。一般分区容忍性都要求有保障,因此很多时候在可用性与一致性之间做权衡。 一致性方案 1.Master-slave 》RDBMS的读写分离即为典型的Mas 阅读全文
posted @ 2017-08-19 16:42 一寂知千秋 阅读(508) 评论(0) 推荐(0) 编辑
摘要: Kafka架构 1.Kafka消息系统一般包括三个部分:Producer(发布者)、Broker(Kafka Server)、Consumer(消费者/订阅者),并辅以Zookeeper来协调。 2.Consumer通过pull来想Broker拉去数据,这样的好处就是Broker设计简单,不需要感知 阅读全文
posted @ 2017-08-18 18:04 一寂知千秋 阅读(332) 评论(0) 推荐(0) 编辑
摘要: Kafka简介 消息系统分类: 1.Peer-to-Peer 它仅支持单播发送,一条消息只能被一个消费者消费 2.发布/订阅系统 它支持单播、多播发送,一条消息能被多个消费者消费(kafka) 常用消息系统对比: RabbitMQ:重量级消息系统 Redis:基于Key-Value对的NoSQL数据 阅读全文
posted @ 2017-08-18 17:57 一寂知千秋 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 1、Topology的构造backtype.storm.topology.TopologyBuilder 2、Spout组件的编写实现接口 backtype.storm.topology.IRichSpout; 或者继承backtype.storm.topology.base.BaseRichSpo 阅读全文
posted @ 2017-08-15 17:11 一寂知千秋 阅读(1390) 评论(0) 推荐(0) 编辑