随笔分类 - hadoop
hadoop相关:hdfs、hive、zk、kafka、hbase
摘要:一、HBase的优化 1,高可用 在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 HM
阅读全文
摘要:一、HBase简介 1,定义: HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。 2,HBase的架构图: 架构角色: 1)Master Master是所有Region Server的管理者,其实现为HRegionServer,主要作用有: a>对于表的DDL操作:crea
阅读全文
摘要:一、Hive的压缩和存储 1,MapReduce支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEF
阅读全文
摘要:一、Hive的简介: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 优点: 1) 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 2) 避免了去写MapReduce,减少开发人员的学习成本。 3) Hive的执行延迟比较
阅读全文
摘要:一、kafka的基础架构 1)Producer :消息生产者,就是向kafka broker发消息的客户端; 2)Consumer :消息消费者,向kafka broker取消息的客户端; 3)Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费
阅读全文
摘要:一、Zookeeper的特点: 1,zookeeper中存在一个leader和多个follower 2,集群中只要有半数以上的节点存活,zookeeper集群就能正常服务 3,全局数据一致:每天zookeeper的server中保存同一份相同的副本 4,更新顺序性:来自同一个client的更新请求按
阅读全文