shayzhang

2017年11月13日

摘要： HBase集群部署 HBase是分布式数据库，本身也需要借助zookeeper进行集群节点间的协调（Master, RegionServer）, 可以使用HBase自带的zookeeper，也可以使用外部独立部署的zookeeper, 从练习的角度讲，可以使用HBase内部自带的zookeeper 阅读全文

posted @ 2017-11-13 00:21 shayzhang 阅读(225) 评论(0) 推荐(0) 编辑

2017年11月11日

01_HBase概述

摘要： 1. HBase在Hadoop生态圈中的位置问题：HBase 是什么，用在哪里，解决什么样的问题？解答： 1）简单来说， HBase 是一种类似于面向列的分布式数据库（集群），底层利用HDFS 来作为其物理存储（但在特殊情况下也可以使用节点本机的文件系统）, 存储稀疏数据；同时借助zookee 阅读全文

posted @ 2017-11-11 02:25 shayzhang 阅读(296) 评论(0) 推荐(0) 编辑

2017年11月7日

04_Storm编程上手_WordCount集群模式运行

摘要： 1. 要解决的问题：代码打包前一篇的代码，在IDEA中通过maven工程创建，通过IDEA完成代码打包 1）File -> Project Structure 2) 选择Artifacts, 并点击加号进行新建 3）选择JAR，并根据module依赖关系进行 4）选择主类，并设置Manifest 阅读全文

posted @ 2017-11-07 21:20 shayzhang 阅读(595) 评论(0) 推荐(0) 编辑

03_Storm编程上手-wordcount

摘要： 1. Storm编程模型概要消息源spout, 继承BaseRichSpout类或实现IRichSpout接口1）BaseRichSpout类相对比较简单，需要覆写的方法较少，满足基本业务需求2）IRichSpout接口，需要实现较多的框架定义好的抽象方法，部分方法和BaseRichSpout 阅读全文

posted @ 2017-11-07 01:59 shayzhang 阅读(274) 评论(0) 推荐(0) 编辑

2017年11月5日

02_Storm集群部署

摘要： 1. 部署前的硬件及软件检查硬件要求 1）storm集群部署包括zookeeper部署，而zookeeper集群最小为3台机器2）storm的计算过程都在内存中完成，因此内存要尽量大3）storm少部分数据在本地（topology提交会有本地目录，storm.local.dir/nimbus/in 阅读全文

posted @ 2017-11-05 05:18 shayzhang 阅读(254) 评论(0) 推荐(0) 编辑

01_Storm体系概要

摘要： 1. Storm发展历史 Storm历史 1. 2010年12月，backtype公司Nathan，提出Storm的核心概念2. backtype, 提供数据分析，数据处理服务的一个公司3. 2011年4月，backtype完成storm开发，正式问世 4. 2011年5月，backtype被twi 阅读全文

posted @ 2017-11-05 03:11 shayzhang 阅读(257) 评论(0) 推荐(0) 编辑

2017年11月3日

07_ZkClient提供的API使用

摘要： 1. ZkClient API简介 zkclient是Github上一个开源的ZooKeeper客户端，在原生ZooKeeper API接口上进行包装，同时在内部实现了session超时重连，Watcher反复注册等功能 2. Maven工程方式导入ZkClient API 通过POM.xml方式，阅读全文

posted @ 2017-11-03 23:12 shayzhang 阅读(2670) 评论(0) 推荐(0) 编辑

06_zookeeper_原生API使用2

摘要： 1. 设置znode节点数据（同步）核心API分析： stat = zk.setData(path, data.getBytes(), -1 )； 2. znode访问权限ACL（同步） 2.1 znode访问权限基础 zk集群中znode的权限模式（scheme) 有2种： 1）基于 IP 2）阅读全文

posted @ 2017-11-03 01:47 shayzhang 阅读(216) 评论(0) 推荐(0) 编辑

2017年11月1日

05_zookeeper_原生API使用1(更新)

摘要： 1. java方式操作远端zookeeper集群概述步骤：下载zookeeper压缩包并解压, 创建java工程，导入zookeeper相关jar包（1）下载zookeeper压缩包 http://archive.apache.org/dist/zookeeper/，下载tar.gz源码包, 阅读全文

posted @ 2017-11-01 01:22 shayzhang 阅读(348) 评论(0) 推荐(0) 编辑

2017年10月31日

01_MapReduce流程总结

摘要： 1. MapReduce整体流程 1、每个map，reduce都作为1个独立进程process启动（多进程并发方式，spark是多线程并发） 2、由于进程空间独享，因此方便控制每个map, reduce任务的资源和调配，但进程的启动慢 3、多线程运行的更快，因此spark有更高的时效性，缺点在阅读全文

posted @ 2017-10-31 01:05 shayzhang 阅读(256) 评论(0) 推荐(0) 编辑

公告