摘要: 一、 广播变量 广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。 Spark的动作通过一系列的步骤执行,这些步骤由分布式的洗牌操作分开。Spark自 阅读全文
posted @ 2017-12-03 23:15 ^_TONY_^ 阅读(3695) 评论(0) 推荐(0) 编辑
摘要: Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余 IO 消耗. 阅读全文
posted @ 2017-12-03 23:13 ^_TONY_^ 阅读(2863) 评论(0) 推荐(0) 编辑
摘要: Spark On Yarn的优势 每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Spark支持资源动态共享,运行于Yarn的框架都共享一个集中配置好的资源池 2. 可以很方便的利用Ya 阅读全文
posted @ 2017-12-03 21:21 ^_TONY_^ 阅读(18618) 评论(2) 推荐(9) 编辑