摘要: 1. 什么是RPC RPC(Remote Procedure Call)远程过程调用。在Hadoop和Spark中都使用了PRC,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。简单来说,就是有A、B两台机器,A机器可以调用B机器上的程序。 2. Spark 的RPC M 阅读全文
posted @ 2018-06-15 21:06 Supernova-x 阅读(527) 评论(0) 推荐(0) 编辑
摘要: 1. RDD概述 1.1 什么是RDD (1) RDD(Resilient Distributed Dataset)弹性分布式数据集,它是Spark的基本数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 (2) 具有数据流模型的特点:自动容错、位置感知性调度、可伸缩性。 (3) 查询 阅读全文
posted @ 2018-06-15 18:21 Supernova-x 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 一、技术背景 Spark1.x版本中执行SQL语句,使用的是一种最经典,最流行的查询求职策略,该策略主要基于 Volcano Iterator Model(火山迭代模型)。一个查询会包含多个Operator,每个Operator都会实现一个接口,提供一个next()方法,该方法返回Operator 阅读全文
posted @ 2018-06-15 14:05 Supernova-x 阅读(654) 评论(0) 推荐(0) 编辑