摘要:
Centos7.4 kafka集群安装与kafka eagle1.3.9的安装 集群规划: | hostname | Zookeeper | Kafka | kafka eagle | | | | | | | kafka01 | √ | √ | √ | | kafka02 | √ | √ | | | 阅读全文
摘要:
Apache Flink 源码解读(一) By yyz940922原创 项目模块 (除去.git, .github, .idea, docs等): flink annotations: flink注解 org.apache.flink.annotation 注解类 Experimental.ja 阅读全文
摘要:
yarn FairScheduler 与 CapacityScheduler CapacityScheduler(根据计算能力调度) CapacityScheduler 允许多个组织共享整个集群, 每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列, 然后再为每个队列分配一定的集群支 阅读全文
摘要:
Hive优化的四种方式 一、整体架构优化 整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) hive中间表以SequenceFile保存, 可以节约序列化和反序列化时间 yarn优化 为了易于管理资源和调度资源, 阅读全文
摘要:
Hive 数据类型 + Hive sql 基本类型 整型 int tinyint (byte) smallint(short) bigint(long) 浮点型 float double 布尔 boolean 字符 string char(定长) varchar(变长) 时间类型 timestamp 阅读全文
摘要:
HBase HBase全称: Hadoop DataBase HBase的思想来源于google的BigTable论文, 适合存放千万级别以上的数据 Hbase完全依赖于HDFS, 用于存储数据 Hbase基于列, 而不是基于行 SELECT FROM user WHERE id = 888; SE 阅读全文
摘要:
Zookeeper Note 1. 什么是 Zookeeper? Zookeeper是一个开源的分布式应用程序协调系统, 是Google的Chubby的一个开源实现(两者有所不同), 他是集群的管理者, 监视着集群中各个节点的状态(源码中有使用Observer[观察者]模式), 并根据节点提交的反馈 阅读全文
摘要:
1.1. Hadoop组成: Hadoop = hdfs(存储) + mapreduce(计算) + yarn(资源协调) + common(工具包) + ozone(对象存储) + submarine(机器学习库) hadoop生态圈: 1.2. 分布式存储系统HDFS (Hadoop Distr 阅读全文
摘要:
ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建 集群规划: | hostname | NameNode | DataNode | JournalNode | ResourceManager | Zookeeper | | | | | | | 阅读全文