12 2017 档案

Apache Spark 2.0三种API的传说：RDD、DataFrame和Dataset

摘要：Apache Spark吸引广大社区开发者的一个重要原因是：Apache Spark提供极其简单、易用的APIs，支持跨多种语言(比如：Scala、Java、Python和R)来操作大数据。本文主要讲解Apache Spark 2.0中RDD，DataFrame和Dataset三种API；它们各自阅读全文

posted @ 2017-12-28 15:04 大葱拌豆腐阅读(2505) 评论(1) 推荐(0) 编辑

Spark如何写入HBase/Redis/MySQL/Kafka

摘要：一些概念一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM. Partition 是一个可迭代数据集合 Task 本质是作用于Partition的线程问题 Task 里如何使用Kafka Producer 将数据发送到Ka 阅读全文

posted @ 2017-12-17 13:40 大葱拌豆腐阅读(1565) 评论(0) 推荐(1) 编辑

Spark源码分析之Sort-Based Shuffle读写流程

摘要：一、概述我们知道Spark Shuffle机制总共有三种： 1.未优化的Hash Shuffle：每一个ShuffleMapTask都会为每一个ReducerTask创建一个单独的文件，总的文件数是S * R,不仅文件数量很多，造成频繁的磁盘和网络I/O,而且内存负担也很大，GC频繁,经常出现O 阅读全文

posted @ 2017-12-16 22:33 大葱拌豆腐阅读(2849) 评论(1) 推荐(0) 编辑

浅谈Spark2.x中的Structured Streaming

摘要：在Spark2.x中，Spark Streaming获得了比较全面的升级，称为Structured Streaming，和之前的很不同，功能更强大，效率更高，跟其他的组件整合性也更好。连续应用程序continuous application 首先，也是最重要的，在2.x中，提出了一个叫做conti 阅读全文

posted @ 2017-12-11 19:40 大葱拌豆腐阅读(299) 评论(0) 推荐(0) 编辑

Spark应用提交

摘要：在 Spark 的 bin 目录中的 spark-submit 脚本用与在集群上启动应用程序。它可以通过一个统一的接口使用所有 Spark 支持的 Cluster Manager，所以您不需要专门的为每个 Cluster Manager 来配置您的应用程序。在 Spark 的 bin 目录中的 s 阅读全文

posted @ 2017-12-04 20:34 大葱拌豆腐阅读(274) 评论(0) 推荐(0) 编辑

集群模式概述

摘要：组件 Spark 应用在集群上作为独立的进程组来运行，在您的 main 程序中通过 SparkContext 来协调（称之为 driver 程序）。具体的说，为了运行在集群上，SparkContext 可以连接至几种类型的 Cluster Manager（既可以用 Spark 自己的 Standl 阅读全文

posted @ 2017-12-04 20:12 大葱拌豆腐阅读(534) 评论(0) 推荐(0) 编辑

公告

昵称：大葱拌豆腐
园龄： 9年
粉丝： 258
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

12 2017 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论