摘要: 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 资源的分配在使用脚本提交Spa 阅读全文
posted @ 2019-02-25 11:58 多弗朗明哥 阅读(2618) 评论(0) 推荐(0) 编辑
摘要: 1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问 阅读全文
posted @ 2019-02-25 11:57 多弗朗明哥 阅读(1238) 评论(0) 推荐(0) 编辑
摘要: 第1章 Spark Streaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spar 阅读全文
posted @ 2019-02-25 11:56 多弗朗明哥 阅读(748) 评论(0) 推荐(0) 编辑
摘要: 第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提 阅读全文
posted @ 2019-02-25 11:55 多弗朗明哥 阅读(1484) 评论(0) 推荐(0) 编辑
摘要: 第1章 RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD的属性 1) 一组分区(Partition),即数 阅读全文
posted @ 2019-02-25 11:54 多弗朗明哥 阅读(595) 评论(0) 推荐(0) 编辑
摘要: 第1章 Spark概述 1.1 什么是Spark 1.2 Spark内置模块 Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称R 阅读全文
posted @ 2019-02-25 11:51 多弗朗明哥 阅读(530) 评论(0) 推荐(0) 编辑