LXL_1

2019年7月10日

摘要： 4.Spark 任务调度机制在工厂环境下，Spark 集群的部署方式一般为 YARN-Cluster 模式，之后的内核分析内容中我们默认集群的部署方式为 YARN-Cluster 模式。 4.1 Spark 任务提交流程在上一章中我们讲解了 Spark YARN-Cluster 模式下的任务提阅读全文

posted @ 2019-07-10 18:46 LXL_1 阅读(1683) 评论(0) 推荐(0) 编辑

Spark 通讯架构

摘要： 3.Spark 通讯架构 3.1 Spark 通信架构概述 Spark2.x 版本使用 Netty 通讯框架作为内部通讯组件。spark 基于 netty 新的 rpc 框架借鉴了 Akka 的中的设计，它是基于 Actor 模型，如下图所示： Spark 通讯框架中各个组件（Client/Mast 阅读全文

posted @ 2019-07-10 15:36 LXL_1 阅读(369) 评论(0) 推荐(0) 编辑

Spark 内核概述部署模式

摘要： 1.Spark 内核概述 Spark 内核泛指 Spark 的核心运行机制，包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等，熟练掌握 Spark 内核原理，能够帮助我们更好地完成 Spark 代码设计，并能够帮助我们准确锁定阅读全文

posted @ 2019-07-10 14:25 LXL_1 阅读(387) 评论(0) 推荐(0) 编辑

Spark DStream 输出编程进阶

摘要： 5.DStream 输出输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。与 RDD 中的惰性求值类似，如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作，那么这些 DStream 就都不会被求值。如果 Streami 阅读全文

posted @ 2019-07-10 02:40 LXL_1 阅读(643) 评论(0) 推荐(0) 编辑

2019年7月9日

Spark Dstream 创建

摘要： 3.Dstream 创建 Spark Streaming 原生支持一些不同的数据源。一些“核心”数据源已经被打包到 Spark Streaming 的 Maven 工件中，而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。每个接收器都以 Spark 执行器程序中一阅读全文

posted @ 2019-07-09 18:28 LXL_1 阅读(285) 评论(0) 推荐(0) 编辑

Spark DStream 转换

摘要： 4.DStream 转换 DStream 上的原语与 RDD 的类似，分为 Transformations（转换）和 Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种 Window 相关阅读全文

posted @ 2019-07-09 18:28 LXL_1 阅读(908) 评论(0) 推荐(0) 编辑

Spark Dstream

摘要： 2.Dstream 入门 Spark Streaming的入口 StreamingContext 初始化完Context之后： 1）定义消息输入源来创建DStreams. 2）定义DStreams的转化操作和输出操作。 3）通过 streamingContext.start()来启动消息采集和处理. 阅读全文

posted @ 2019-07-09 04:55 LXL_1 阅读(205) 评论(0) 推荐(0) 编辑

Spark Streaming 概述

摘要： 1.Spark Streaming 概述 1.1 Spark Streaming 是什么 Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多，例如：Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可阅读全文

posted @ 2019-07-09 04:03 LXL_1 阅读(289) 评论(0) 推荐(0) 编辑

SparkSQL 数据源

摘要： 3.SparkSQL 数据源 3.1 通用加载/保存方法 3.1.1 手动指定选项 Spark SQL 的 DataFrame 接口支持多种数据源的操作。一个 DataFrame 可以进行 RDDs 方式的操作，也可以被注册为临时表。把 DataFrame 注册为临时表之后，就可以对该 DataF 阅读全文

posted @ 2019-07-09 01:57 LXL_1 阅读(603) 评论(0) 推荐(0) 编辑

2019年7月8日

SparkSQL 编程

摘要： 2.SparkSQL 编程 2.1 SparkSession 新的起始点在老的版本中，SparkSQL 提供两种 SQL 查询起始点：一个叫 SQLContext，用于 Spark 自己提供的 SQL 查询；一个叫 HiveContext，用于连接 Hive 的查询。 SparkSession 阅读全文

posted @ 2019-07-08 04:58 LXL_1 阅读(297) 评论(0) 推荐(0) 编辑

公告