摘要: Centos7.4 kafka集群安装与kafka eagle1.3.9的安装 集群规划: | hostname | Zookeeper | Kafka | kafka eagle | | | | | | | kafka01 | √ | √ | √ | | kafka02 | √ | √ | | | 阅读全文
posted @ 2019-10-04 15:51 wellDoneGaben 阅读(1620) 评论(0) 推荐(0) 编辑
摘要: Apache Flink 源码解读(一) ​ By yyz940922原创 项目模块 (除去.git, .github, .idea, docs等): flink annotations: flink注解 org.apache.flink.annotation 注解类 Experimental.ja 阅读全文
posted @ 2019-09-28 00:58 wellDoneGaben 阅读(2153) 评论(0) 推荐(0) 编辑
摘要: yarn FairScheduler 与 CapacityScheduler CapacityScheduler(根据计算能力调度) CapacityScheduler 允许多个组织共享整个集群, 每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列, 然后再为每个队列分配一定的集群支 阅读全文
posted @ 2019-09-25 21:37 wellDoneGaben 阅读(607) 评论(0) 推荐(0) 编辑
摘要: Hive优化的四种方式 一、整体架构优化 整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) hive中间表以SequenceFile保存, 可以节约序列化和反序列化时间 yarn优化 为了易于管理资源和调度资源, 阅读全文
posted @ 2019-09-25 20:04 wellDoneGaben 阅读(707) 评论(0) 推荐(0) 编辑
摘要: Hive 数据类型 + Hive sql 基本类型 整型 int tinyint (byte) smallint(short) bigint(long) 浮点型 float double 布尔 boolean 字符 string char(定长) varchar(变长) 时间类型 timestamp 阅读全文
posted @ 2019-09-23 20:16 wellDoneGaben 阅读(4657) 评论(0) 推荐(0) 编辑
摘要: HBase HBase全称: Hadoop DataBase HBase的思想来源于google的BigTable论文, 适合存放千万级别以上的数据 Hbase完全依赖于HDFS, 用于存储数据 Hbase基于列, 而不是基于行 SELECT FROM user WHERE id = 888; SE 阅读全文
posted @ 2019-09-19 23:33 wellDoneGaben 阅读(180) 评论(0) 推荐(0) 编辑
摘要: Zookeeper Note 1. 什么是 Zookeeper? Zookeeper是一个开源的分布式应用程序协调系统, 是Google的Chubby的一个开源实现(两者有所不同), 他是集群的管理者, 监视着集群中各个节点的状态(源码中有使用Observer[观察者]模式), 并根据节点提交的反馈 阅读全文
posted @ 2019-09-18 21:14 wellDoneGaben 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 1.1. Hadoop组成: Hadoop = hdfs(存储) + mapreduce(计算) + yarn(资源协调) + common(工具包) + ozone(对象存储) + submarine(机器学习库) hadoop生态圈: 1.2. 分布式存储系统HDFS (Hadoop Distr 阅读全文
posted @ 2019-09-15 18:56 wellDoneGaben 阅读(723) 评论(0) 推荐(0) 编辑
摘要: ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建 集群规划: | hostname | NameNode | DataNode | JournalNode | ResourceManager | Zookeeper | | | | | | | 阅读全文
posted @ 2019-09-14 13:16 wellDoneGaben 阅读(1467) 评论(0) 推荐(1) 编辑
摘要: 什么是持久化? 用一句话概括持久化: 将数据保存到可永久保存的存储设备中。持久化的主要应用是将内存中的对象存储在数据库中, 或者存储在磁盘文件中。 从应用层与系统层理解持久化 应用层: 如果关闭你的应用然后重新启动则先前的数据依然存在。 系统层: 如果关闭你的系统(电脑) 然后重启则先前的数据依然存 阅读全文
posted @ 2019-09-07 20:07 wellDoneGaben 阅读(168) 评论(0) 推荐(0) 编辑