12 2019 档案

Spark on Yarn详解
摘要:Spark 可以跑在很多集群上,比如跑在local上,跑在Standalone上,跑在Apache Mesos上,跑在Hadoop YARN上等等。不管你Spark跑在什么上面,它的代码都是一样的,区别只是–master的时候不一样。其中Spark on YARN是工作中或生产上用的非常多的一种运行 阅读全文

posted @ 2019-12-29 21:35 chaplinthink 阅读(9086) 评论(0) 推荐(0)

Spark原理及关键技术点
摘要:Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同 阅读全文

posted @ 2019-12-26 22:45 chaplinthink 阅读(1527) 评论(0) 推荐(0)

Flink应用程序结构开发介绍
摘要:Flink程序遵循一定的编程模式。DataStream API 和 DataSet API 基本具有相同的程序结构。以下为一个流式程序的示例代码来对文本文件进行词频统计。 整个Flink 程序一共分为5步: 1. Flink执行环境 不同的执行环境决定了应用的类型: StreamExecutionE 阅读全文

posted @ 2019-12-08 17:44 chaplinthink 阅读(751) 评论(0) 推荐(1)

导航