上一页 1 2 3 4 5 6 7 8 9 ··· 38 下一页
摘要: 4.Spark 任务调度机制 在工厂环境下,Spark 集群的部署方式一般为 YARN-Cluster 模式,之后的内核 分析内容中我们默认集群的部署方式为 YARN-Cluster 模式。 4.1 Spark 任务提交流程 在上一章中我们讲解了 Spark YARN-Cluster 模式下的任务提 阅读全文
posted @ 2019-07-10 18:46 LXL_1 阅读(1683) 评论(0) 推荐(0) 编辑
摘要: 3.Spark 通讯架构 3.1 Spark 通信架构概述 Spark2.x 版本使用 Netty 通讯框架作为内部通讯组件。spark 基于 netty 新的 rpc 框架借鉴了 Akka 的中的设计,它是基于 Actor 模型,如下图所示: Spark 通讯框架中各个组件(Client/Mast 阅读全文
posted @ 2019-07-10 15:36 LXL_1 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 1.Spark 内核概述 Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等,熟练掌握 Spark 内核原理,能够帮助我们更好地完成 Spark 代码设计,并能够帮助我们准确锁定 阅读全文
posted @ 2019-07-10 14:25 LXL_1 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 5.DStream 输出 输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据 库或输出到屏幕上)。与 RDD 中的惰性求值类似,如果一个 DStream 及其派生出的 DStream 都没 有被执行输出操作,那么这些 DStream 就都不会被求值。如果 Streami 阅读全文
posted @ 2019-07-10 02:40 LXL_1 阅读(643) 评论(0) 推荐(0) 编辑
摘要: 3.Dstream 创建 Spark Streaming 原生支持一些不同的数据源。一些“核心”数据源已经被打包到 Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。 每个接收器都以 Spark 执行器程序中一 阅读全文
posted @ 2019-07-09 18:28 LXL_1 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 4.DStream 转换 DStream 上的原语与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输 出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及 各种 Window 相关 阅读全文
posted @ 2019-07-09 18:28 LXL_1 阅读(908) 评论(0) 推荐(0) 编辑
摘要: 2.Dstream 入门 Spark Streaming的入口 StreamingContext 初始化完Context之后: 1)定义消息输入源来创建DStreams. 2)定义DStreams的转化操作和输出操作。 3)通过 streamingContext.start()来启动消息采集和处理. 阅读全文
posted @ 2019-07-09 04:55 LXL_1 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 1.Spark Streaming 概述 1.1 Spark Streaming 是什么 Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可 阅读全文
posted @ 2019-07-09 04:03 LXL_1 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 3.SparkSQL 数据源 3.1 通用加载/保存方法 3.1.1 手动指定选项 Spark SQL 的 DataFrame 接口支持多种数据源的操作。一个 DataFrame 可以进行 RDDs 方式 的操作,也可以被注册为临时表。把 DataFrame 注册为临时表之后,就可以对该 DataF 阅读全文
posted @ 2019-07-09 01:57 LXL_1 阅读(603) 评论(0) 推荐(0) 编辑
摘要: 2.SparkSQL 编程 2.1 SparkSession 新的起始点 在老的版本中,SparkSQL 提供两种 SQL 查询起始点:一个叫 SQLContext,用于 Spark 自己 提供的 SQL 查询;一个叫 HiveContext,用于连接 Hive 的查询。 SparkSession 阅读全文
posted @ 2019-07-08 04:58 LXL_1 阅读(297) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 38 下一页