摘要:
一、概述 1、概念 基于内存的大数据分析计算引擎 2、特点 快速、通用、可融合性 3、Spark内置模块【腾讯8000台spark集群】 Spark运行在集群管理器(Cluster Manager)上,支持3种集群管理器:Yarn、Standalone(脱机,Spark自带)、Apache Meso 阅读全文
摘要:
总结:https://www.cnblogs.com/qingyunzong/p/8899715.html 一、RDD概述 1、引入:IO流 按行、按字节、字节缓冲 调用read方法读取流,均为惰性加载 2、RDD介绍 RDD:弹性分布数据集 只有调用collect才会执行 3、特性 分区(是并行计 阅读全文