03 2020 档案

摘要:1、Flink运行时的组件 Flink运行时架构主要包括四个不同的组件,他们会在运行流处理应用程序时协同工作: 作业管理器(JobManager) 资源管理器(ResourceManager) 任务管理器(TaskManager) 分发器(Dispatcher) 1.1 作业管理器(JobManag 阅读全文
posted @ 2020-03-25 17:40 hyunbar 阅读(469) 评论(0) 推荐(0) 编辑
摘要:流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收水位数据,并在水位超过指定高度时发出警告。有状态的计算则会基于多个事件输出结果。以下是一些例子。 所有类型的窗口。例如,计算过去一小时的平均水位,就是有状态的计算。 所有用于 阅读全文
posted @ 2020-03-25 17:38 hyunbar 阅读(2987) 评论(0) 推荐(0) 编辑
摘要:当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是"正确性级别"的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏差,是有漏掉的计数还 阅读全文
posted @ 2020-03-25 17:36 hyunbar 阅读(489) 评论(0) 推荐(0) 编辑
摘要:Flink具体如何保证exactly-once呢? 它使用一种被称为"检查点"(checkpoint)的特性,在出现故障时将系统重置回正确状态。下面通过简单的类比来解释检查点的作用。 假设你和两位朋友正在数项链上有多少颗珠子,如下图所示。你捏住珠子,边数边拨,每拨过一颗珠子就给总数加一。你的朋友也这 阅读全文
posted @ 2020-03-25 17:35 hyunbar 阅读(3404) 评论(0) 推荐(0) 编辑
摘要:1、Flink中的时间语义 在Flink的流式处理中,会涉及到时间的不同概念,如下图所示: Event Time: 是时间创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳 Ingestion Time:数据进入F 阅读全文
posted @ 2020-03-25 17:34 hyunbar 阅读(594) 评论(0) 推荐(0) 编辑
摘要:Sink groups允许组织多个sink到一个实体上。 Sink processors能够提供在组内所有Sink之间实现负载均衡的能力,而且在失败的情况下能够进行故障转移从一个Sink到另一个Sink。 下面是官方配置: 从参数类型上可以看出有3种Processors类型:default, fai 阅读全文
posted @ 2020-03-22 10:59 hyunbar 阅读(1125) 评论(0) 推荐(0) 编辑
摘要:1、5种存储格式 Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile 阅读全文
posted @ 2020-03-19 21:48 hyunbar 阅读(3333) 评论(0) 推荐(0) 编辑
摘要:1、消费者与消费者组 假设某 topic 有4个分区,消费者组中只有一个消费者,那么这个消费者将消费全部 partition 中的数据。 如果消费者组中有两个消费者,那么每个消费者消费两个 partition。 如果消费者组中有4个消费者,那么每个消费者消费一个partition。 如果消费者组中有 阅读全文
posted @ 2020-03-19 20:40 hyunbar 阅读(654) 评论(0) 推荐(0) 编辑
摘要:1、MySQL主从复制原理 2、Canal 的工作原理 canal模拟MySQL slave的交互协议,伪装自己为MySQL slave,向MySQL master发送dump协议 mysql master收到dump请求,开始推送binary log为slave canal解析binary log 阅读全文
posted @ 2020-03-19 20:10 hyunbar 阅读(868) 评论(0) 推荐(0) 编辑
摘要:1.1 ElasticSearch重要概 cluster:整个ES默认就是集群状态,整个集群是一份完整、互备的数据 node:集群中一个节点,一个进程是一个node shard:分片,即使是一个节点中的数据也会通过hash算法,分成多个片段,默认是5片(7.0默认1片) index:相当于datab 阅读全文
posted @ 2020-03-19 19:51 hyunbar 阅读(206) 评论(0) 推荐(0) 编辑
摘要:1、Kylin简介 1.1 kylin简介 Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 Apache Kylin 阅读全文
posted @ 2020-03-19 19:28 hyunbar 阅读(426) 评论(0) 推荐(0) 编辑
摘要:1、概念 presto是一个开源的分布式SQL查询引擎 数量支持GB到PB字节 主要用来处理秒级查询的场景 注意: 虽然presto可以解析SQL,但它不是一个标准的数据库不是mysql,oracle的代替品,也不能用来处理在线事务(OLTP) 2、Presto架构 presto由一个coordin 阅读全文
posted @ 2020-03-19 14:54 hyunbar 阅读(760) 评论(0) 推荐(0) 编辑
摘要:OLAP百家争鸣 OLAP简介 OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。与此相对的是OLTP(on-line transaction processing)联机事务处理系统。 联机分析处理 (O 阅读全文
posted @ 2020-03-17 10:01 hyunbar 阅读(10123) 评论(0) 推荐(0) 编辑
摘要:引言 ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。目前国内社区火热,各个大厂纷纷跟进大规模使用: 今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB 阅读全文
posted @ 2020-03-16 21:09 hyunbar 阅读(3148) 评论(0) 推荐(0) 编辑
摘要:传统关系型数据库中 ,最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。 分别对应了sql查询过程中的result , datasource和op 阅读全文
posted @ 2020-03-14 12:07 hyunbar 阅读(1971) 评论(0) 推荐(0) 编辑
摘要:一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等 阅读全文
posted @ 2020-03-11 10:19 hyunbar 阅读(207) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示