2021 年 11月 7 日随笔档案 - KaneQi

2021年11月7日

摘要：数据读取与保存 Text文件基本语法数据读取：textFile(String) 数据保存：saveAsTextFile(String) Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在Spark 阅读全文

posted @ 2021-11-07 15:09 KaneQi 阅读(35) 评论(0) 推荐(0) 编辑

Sparkcore学习（二）

摘要： RDD创建根据本地创建 makeRDD: 底层就是使用的parallelize parallelize 读取文件创建根据读取文件创建RDD spark读取文件的方式: 如果集群配置文件中有配置 HADOOP_CONF_DIR配置,此时默认读取是HDFS文件【公司一般有配置HADOOP_CONF 阅读全文

posted @ 2021-11-07 15:07 KaneQi 阅读(31) 评论(0) 推荐(0) 编辑

Sparkcore学习（一）

摘要： SparkCore-基本概述 RDD概述弹性分布式数据集，Spark中最基本的数据抽象。代码中的是一个抽象类，其代表一个弹性、不可变、可分区、内部元素可并行计算的集合 RDD特点弹性存储：内存与硬盘自动切换，可以存储在内存或者磁盘中计算：数据丢失可以自动恢复容错：计算出错有重试机制分片：阅读全文

posted @ 2021-11-07 15:05 KaneQi 阅读(49) 评论(0) 推荐(0) 编辑

Spark基本概述

摘要： Spark概述描述：基于内存的快速、通用、可扩展的分析计算引擎 MR与Spark对比 MR 从数据源获取数据，经过map、shuffle、reduce计算，将结果输出到指定位置，其核心是一次计算，不适合迭代计算和图计算 Spark 从数据源获取数据，将计算逻辑封装成RDD，经过特定算子计算，将结果阅读全文

posted @ 2021-11-07 15:02 KaneQi 阅读(54) 评论(0) 推荐(0) 编辑

∠