摘要: 一、概述 1、概念 基于内存的大数据分析计算引擎 2、特点 快速、通用、可融合性 3、Spark内置模块【腾讯8000台spark集群】 Spark运行在集群管理器(Cluster Manager)上,支持3种集群管理器:Yarn、Standalone(脱机,Spark自带)、Apache Meso 阅读全文
posted @ 2021-11-17 22:11 哥们要飞 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 总结:https://www.cnblogs.com/qingyunzong/p/8899715.html 一、RDD概述 1、引入:IO流 按行、按字节、字节缓冲 调用read方法读取流,均为惰性加载 2、RDD介绍 RDD:弹性分布数据集 只有调用collect才会执行 3、特性 分区(是并行计 阅读全文
posted @ 2021-11-17 21:20 哥们要飞 阅读(82) 评论(0) 推荐(0) 编辑