摘要: HBase集群部署 HBase是分布式数据库,本身也需要借助zookeeper进行集群节点间的协调(Master, RegionServer), 可以使用HBase自带的zookeeper,也可以使用外部独立部署的zookeeper, 从练习的角度讲,可以使用HBase内部自带的zookeeper 阅读全文
posted @ 2017-11-13 00:21 shayzhang 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 1. HBase在Hadoop生态圈中的位置 问题:HBase 是什么,用在哪里,解决什么样的问题? 解答: 1)简单来说, HBase 是一种类似于面向列的分布式数据库(集群), 底层利用HDFS 来作为其物理存储(但在特殊情况下也可以使用节点本机的文件系统), 存储稀疏数据;同时借助zookee 阅读全文
posted @ 2017-11-11 02:25 shayzhang 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 1. 要解决的问题:代码打包 前一篇的代码,在IDEA中通过maven工程创建,通过IDEA完成代码打包 1)File -> Project Structure 2) 选择Artifacts, 并点击加号进行新建 3)选择JAR,并根据module依赖关系进行 4)选择 主类,并设置Manifest 阅读全文
posted @ 2017-11-07 21:20 shayzhang 阅读(595) 评论(0) 推荐(0) 编辑
摘要: 1. Storm编程模型概要 消息源spout, 继承BaseRichSpout类 或 实现IRichSpout接口1)BaseRichSpout类相对比较简单,需要覆写的方法较少,满足基本业务需求2)IRichSpout接口,需要实现较多的框架定义好的抽象方法,部分方法和BaseRichSpout 阅读全文
posted @ 2017-11-07 01:59 shayzhang 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 1. 部署前的硬件及软件检查 硬件要求 1)storm集群部署包括zookeeper部署,而zookeeper集群最小为3台机器2)storm的计算过程都在内存中完成,因此内存要尽量大3)storm少部分数据在本地(topology提交会有本地目录,storm.local.dir/nimbus/in 阅读全文
posted @ 2017-11-05 05:18 shayzhang 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 1. Storm发展历史 Storm历史 1. 2010年12月,backtype公司Nathan,提出Storm的核心概念2. backtype, 提供数据分析,数据处理服务的一个公司3. 2011年4月,backtype完成storm开发,正式问世 4. 2011年5月,backtype被twi 阅读全文
posted @ 2017-11-05 03:11 shayzhang 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 1. ZkClient API简介 zkclient是Github上一个开源的ZooKeeper客户端,在原生ZooKeeper API接口上进行包装,同时在内部实现了session超时重连,Watcher反复注册等功能 2. Maven工程方式导入ZkClient API 通过POM.xml方式, 阅读全文
posted @ 2017-11-03 23:12 shayzhang 阅读(2670) 评论(0) 推荐(0) 编辑
摘要: 1. 设置znode节点数据(同步) 核心API分析: stat = zk.setData(path, data.getBytes(), -1 ); 2. znode访问权限ACL(同步) 2.1 znode访问权限基础 zk集群中znode的权限模式(scheme) 有2种: 1)基于 IP 2) 阅读全文
posted @ 2017-11-03 01:47 shayzhang 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 1. java方式操作远端zookeeper集群概述 步骤:下载zookeeper压缩包并解压, 创建java工程,导入zookeeper相关jar包 (1)下载zookeeper压缩包 http://archive.apache.org/dist/zookeeper/, 下载tar.gz源码包, 阅读全文
posted @ 2017-11-01 01:22 shayzhang 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 1. MapReduce整体流程 1、 每个map,reduce都作为1个独立进程process启动(多进程并发方式,spark是多线程并发) 2、 由于进程空间独享,因此方便控制每个map, reduce任务的资源和调配,但进程的启动慢 3、 多线程运行的更快,因此spark有更高的时效性,缺点在 阅读全文
posted @ 2017-10-31 01:05 shayzhang 阅读(256) 评论(0) 推荐(0) 编辑