随笔档案「2019年12月」 - chaplinthink

Spark on Yarn详解

摘要：Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的时候不一样。其中Spark on YARN是工作中或生产上用的非常多的一种运行阅读全文

posted @ 2019-12-29 21:35 chaplinthink 阅读(9093) 评论(0) 推荐(0)

Spark原理及关键技术点

摘要：Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同阅读全文

posted @ 2019-12-26 22:45 chaplinthink 阅读(1528) 评论(0) 推荐(0)

Flink应用程序结构开发介绍

摘要：Flink程序遵循一定的编程模式。DataStream API 和 DataSet API 基本具有相同的程序结构。以下为一个流式程序的示例代码来对文本文件进行词频统计。整个Flink 程序一共分为5步: 1. Flink执行环境不同的执行环境决定了应用的类型: StreamExecutionE 阅读全文

posted @ 2019-12-08 17:44 chaplinthink 阅读(751) 评论(0) 推荐(1)

12 2019 档案

Spark on Yarn详解

Spark原理及关键技术点

Flink应用程序结构开发介绍

导航