12 2017 档案

摘要:Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单、易用的APIs,支持跨多种语言(比如:Scala、Java、Python和R)来操作大数据。 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自 阅读全文
posted @ 2017-12-28 15:04 大葱拌豆腐 阅读(2505) 评论(1) 推荐(0) 编辑
摘要:一些概念 一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM. Partition 是一个可迭代数据集合 Task 本质是作用于Partition的线程 问题 Task 里如何使用Kafka Producer 将数据发送到Ka 阅读全文
posted @ 2017-12-17 13:40 大葱拌豆腐 阅读(1565) 评论(0) 推荐(1) 编辑
摘要:一 、概述 我们知道Spark Shuffle机制总共有三种: 1.未优化的Hash Shuffle:每一个ShuffleMapTask都会为每一个ReducerTask创建一个单独的文件,总的文件数是S * R,不仅文件数量很多,造成频繁的磁盘和网络I/O,而且内存负担也很大,GC频繁,经常出现O 阅读全文
posted @ 2017-12-16 22:33 大葱拌豆腐 阅读(2849) 评论(1) 推荐(0) 编辑
摘要:在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好。 连续应用程序continuous application 首先,也是最重要的,在2.x中,提出了一个叫做conti 阅读全文
posted @ 2017-12-11 19:40 大葱拌豆腐 阅读(299) 评论(0) 推荐(0) 编辑
摘要:在 Spark 的 bin 目录中的 spark-submit 脚本用与在集群上启动应用程序。它可以通过一个统一的接口使用所有 Spark 支持的 Cluster Manager,所以您不需要专门的为每个 Cluster Manager 来配置您的应用程序。 在 Spark 的 bin 目录中的 s 阅读全文
posted @ 2017-12-04 20:34 大葱拌豆腐 阅读(274) 评论(0) 推荐(0) 编辑
摘要:组件 Spark 应用在集群上作为独立的进程组来运行,在您的 main 程序中通过 SparkContext 来协调(称之为 driver 程序)。 具体的说,为了运行在集群上,SparkContext 可以连接至几种类型的 Cluster Manager(既可以用 Spark 自己的 Standl 阅读全文
posted @ 2017-12-04 20:12 大葱拌豆腐 阅读(534) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示