摘要: 数据读取与保存 Text文件 基本语法 数据读取:textFile(String) 数据保存:saveAsTextFile(String) Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在Spark 阅读全文
posted @ 2021-11-07 15:09 KaneQi 阅读(35) 评论(0) 推荐(0) 编辑
摘要: RDD创建 根据本地创建 makeRDD: 底层就是使用的parallelize parallelize 读取文件创建 根据读取文件创建RDD spark读取文件的方式: 如果集群配置文件中有配置 HADOOP_CONF_DIR配置,此时默认读取是HDFS文件 【公司一般有配置HADOOP_CONF 阅读全文
posted @ 2021-11-07 15:07 KaneQi 阅读(31) 评论(0) 推荐(0) 编辑
摘要: SparkCore-基本概述 RDD概述 弹性分布式数据集,Spark中最基本的数据抽象。代码中的是一个抽象类,其代表一个弹性、不可变、可分区、内部元素可并行计算的集合 RDD特点 弹性 存储:内存与硬盘自动切换,可以存储在内存或者磁盘中 计算:数据丢失可以自动恢复 容错:计算出错有重试机制 分片: 阅读全文
posted @ 2021-11-07 15:05 KaneQi 阅读(49) 评论(0) 推荐(0) 编辑
摘要: Spark概述 描述:基于内存的快速、通用、可扩展的分析计算引擎 MR与Spark对比 MR 从数据源获取数据,经过map、shuffle、reduce计算,将结果输出到指定位置,其核心是一次计算,不适合迭代计算和图计算 Spark 从数据源获取数据,将计算逻辑封装成RDD,经过特定算子计算,将结果 阅读全文
posted @ 2021-11-07 15:02 KaneQi 阅读(54) 评论(0) 推荐(0) 编辑