摘要:
一、背景介绍 在KUDU之前,大数据主要以两种方式存储; (1)静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。 (2)动态数据: 以 HBase、Cassandra 作为存储引擎,适用于大数据随机读写场景。这类存储的局限性是 阅读全文
摘要:
https://www.zybuluo.com/mdeditor 阅读全文
摘要:
tensorflow运行原理分析(源码) https://pan.baidu.com/s/1GJzQg0QgS93rfsqtIMURSA 阅读全文
摘要:
Flink的Fault Tolerance,是在在Chandy Lamport Algorithm的基础上扩展实现了一套分布式Checkpointing机制,这个机制在论文"Lightweight Asynchronous Snapshots for Distributed Dataflows"中进 阅读全文
摘要:
Flink的数据流图的生成主要分为简单执行计划-->StreamGraph的生成-->JobGraph的生成-->ExecutionGraph的生成-->物理执行图。其中前三个(ExecutionGraph的之前都是在client上生成的)。ExectuionGraph是JobGraph的并行版本, 阅读全文
摘要:
以Flink源码中自带的WordCount为例,执行的入口从用户程序的execute()函数入手,execute()的源码如下: 函数内部主要有getStreamGraph()、getJobGraph()、exec.start()、exec.submitJobAndWait()等。getStream 阅读全文
摘要:
环境准备 master:171;slave:171,172;flink版本:1.3.0 下载地址:http://archive.apache.org/dist/flink/flink-1.3.0/ 集群安装 1.在yita171中,解压flink-1.3.0-bin-hadoop26-scala_2 阅读全文
摘要:
1、Flink架构 Flink系统的架构与Spark类似,是一个基于Master-Slave风格的架构,如下图所示: Flink集群启动时,会启动一个JobManager进程、至少一个TaskManager进程。在Local模式下,会在同一个JVM内部启动一个JobManager进程和TaskMan 阅读全文
摘要:
Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。目前主要还是依靠开源社区的贡献而发展。对 Flink 而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个极限特例而已。Flink 会把所有任务当成流来处理,这也是其最大的特点。Flink 可以支持本地的快 阅读全文
摘要:
Stream、Transformation、Operator 用户实现的Flink程序是由Stream和Transformation这两个基本构建块组成,其中Stream是一个中间结果数据,而Transformation是一个操作,它对一个或多个输入Stream进行计算处理,输出一个或多个结果Str 阅读全文