随笔分类 - Spark
摘要:Spark—RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1、def map[U: ClassTag](f: T => U): RDD[U] 将函数应用于RDD的每一元素,并返回一个新的RDD 2、def filter(f: T => Boolean
阅读全文
摘要:IDEA上搭建spark开发环境 我本地系统是windows10,首先IDEA上要安装了scala插件。 1、下载winutils.exe文件 winutils.exe是在Windows系统上需要的hadoop调试环境工具,里面包含一些在Windows系统下调试hadoop、spark所需要的基本的
阅读全文
摘要:Spark—RDD 1、概念介绍 RDD(Resilient Distributed Dataset):弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 官方定义还是比较抽象,个人理解为:它本质就是一个类,屏蔽了底层对数据的复杂抽象和处理,为用
阅读全文
摘要:Spark——local模式环境搭建 一、Spark运行模式介绍 1、本地模式(loca模式):spark单机运行,一般用户测试和开发使用 2、Standalone模式:构建一个主从结构(Master+Slave)的spark集群,spark运行在集群中。 3、Spark on yarn 模式:Sp
阅读全文
摘要:Spark版本:Spark-2.1.0 Hadoop版本:hadooop-2.6.0-cdh5.7.0 官方文档:http://spark.apache.org/docs/latest/building-spark.html 一、环境配置 安装并配置好JDK 安装并配置好MAVEN 安装并配置好SC
阅读全文
摘要:Spark——初识spark 一、Spark背景 1)MapReduce局限性 <1>仅支持Map和Reduce两种操作,提供给用户的只有这两种操作 <2>处理效率低效 Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据 任务调度和启动开销大: mr的启动开销一,客户端需
阅读全文