2020 年 3月 19 日随笔档案 - hyunbar

2020年3月19日

摘要： 1、5种存储格式 Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。在建表时使用STORED AS (TextFile 阅读全文

posted @ 2020-03-19 21:48 hyunbar 阅读(3240) 评论(0) 推荐(0) 编辑

Kafka 核心组件之协调器

摘要： 1、消费者与消费者组假设某 topic 有4个分区，消费者组中只有一个消费者，那么这个消费者将消费全部 partition 中的数据。如果消费者组中有两个消费者，那么每个消费者消费两个 partition。如果消费者组中有4个消费者，那么每个消费者消费一个partition。如果消费者组中有阅读全文

posted @ 2020-03-19 20:40 hyunbar 阅读(619) 评论(0) 推荐(0) 编辑

Canal工作原理

摘要： 1、MySQL主从复制原理 2、Canal 的工作原理 canal模拟MySQL slave的交互协议，伪装自己为MySQL slave，向MySQL master发送dump协议 mysql master收到dump请求，开始推送binary log为slave canal解析binary log 阅读全文

posted @ 2020-03-19 20:10 hyunbar 阅读(847) 评论(0) 推荐(0) 编辑

ElasticSearch

摘要： 1.1 ElasticSearch重要概 cluster：整个ES默认就是集群状态，整个集群是一份完整、互备的数据 node：集群中一个节点，一个进程是一个node shard：分片，即使是一个节点中的数据也会通过hash算法，分成多个片段，默认是5片（7.0默认1片） index：相当于datab 阅读全文

posted @ 2020-03-19 19:51 hyunbar 阅读(200) 评论(0) 推荐(0) 编辑

Kylin

摘要： 1、Kylin简介 1.1 kylin简介 Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 Apache Kylin 阅读全文

posted @ 2020-03-19 19:28 hyunbar 阅读(412) 评论(0) 推荐(0) 编辑

Presto

摘要： 1、概念 presto是一个开源的分布式SQL查询引擎数量支持GB到PB字节主要用来处理秒级查询的场景注意：虽然presto可以解析SQL，但它不是一个标准的数据库不是mysql，oracle的代替品，也不能用来处理在线事务（OLTP） 2、Presto架构 presto由一个coordin 阅读全文

posted @ 2020-03-19 14:54 hyunbar 阅读(741) 评论(0) 推荐(0) 编辑

hyunbar

公告