摘要: 1、5种存储格式 Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile 阅读全文
posted @ 2020-03-19 21:48 hyunbar 阅读(3240) 评论(0) 推荐(0) 编辑
摘要: 1、消费者与消费者组 假设某 topic 有4个分区,消费者组中只有一个消费者,那么这个消费者将消费全部 partition 中的数据。 如果消费者组中有两个消费者,那么每个消费者消费两个 partition。 如果消费者组中有4个消费者,那么每个消费者消费一个partition。 如果消费者组中有 阅读全文
posted @ 2020-03-19 20:40 hyunbar 阅读(619) 评论(0) 推荐(0) 编辑
摘要: 1、MySQL主从复制原理 2、Canal 的工作原理 canal模拟MySQL slave的交互协议,伪装自己为MySQL slave,向MySQL master发送dump协议 mysql master收到dump请求,开始推送binary log为slave canal解析binary log 阅读全文
posted @ 2020-03-19 20:10 hyunbar 阅读(847) 评论(0) 推荐(0) 编辑
摘要: 1.1 ElasticSearch重要概 cluster:整个ES默认就是集群状态,整个集群是一份完整、互备的数据 node:集群中一个节点,一个进程是一个node shard:分片,即使是一个节点中的数据也会通过hash算法,分成多个片段,默认是5片(7.0默认1片) index:相当于datab 阅读全文
posted @ 2020-03-19 19:51 hyunbar 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 1、Kylin简介 1.1 kylin简介 Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 Apache Kylin 阅读全文
posted @ 2020-03-19 19:28 hyunbar 阅读(412) 评论(0) 推荐(0) 编辑
摘要: 1、概念 presto是一个开源的分布式SQL查询引擎 数量支持GB到PB字节 主要用来处理秒级查询的场景 注意: 虽然presto可以解析SQL,但它不是一个标准的数据库不是mysql,oracle的代替品,也不能用来处理在线事务(OLTP) 2、Presto架构 presto由一个coordin 阅读全文
posted @ 2020-03-19 14:54 hyunbar 阅读(741) 评论(0) 推荐(0) 编辑