Spark - 随笔分类 - 技术小白丁

Spark—RDD编程常用转换算子代码实例

摘要：Spark—RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例： 1、def map[U: ClassTag](f: T => U): RDD[U] 将函数应用于RDD的每一元素，并返回一个新的RDD 2、def filter(f: T => Boolean 阅读全文

posted @ 2019-05-08 10:53 技术小白丁阅读(712) 评论(0) 推荐(0)

IDEA上搭建spark开发

摘要：IDEA上搭建spark开发环境我本地系统是windows10，首先IDEA上要安装了scala插件。 1、下载winutils.exe文件 winutils.exe是在Windows系统上需要的hadoop调试环境工具，里面包含一些在Windows系统下调试hadoop、spark所需要的基本的阅读全文

posted @ 2019-05-08 10:48 技术小白丁阅读(562) 评论(0) 推荐(0)

Spark—RDD介绍

摘要：Spark—RDD 1、概念介绍 RDD（Resilient Distributed Dataset）:弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。官方定义还是比较抽象，个人理解为:它本质就是一个类，屏蔽了底层对数据的复杂抽象和处理，为用阅读全文

posted @ 2019-05-08 10:44 技术小白丁阅读(722) 评论(0) 推荐(0)

Spark—local模式环境搭建

摘要：Spark——local模式环境搭建一、Spark运行模式介绍 1、本地模式（loca模式）：spark单机运行，一般用户测试和开发使用 2、Standalone模式：构建一个主从结构(Master+Slave)的spark集群,spark运行在集群中。 3、Spark on yarn 模式：Sp 阅读全文

posted @ 2019-05-06 10:37 技术小白丁阅读(3105) 评论(0) 推荐(0)

Spark—编译Spark源码

摘要：Spark版本：Spark-2.1.0 Hadoop版本：hadooop-2.6.0-cdh5.7.0 官方文档：http://spark.apache.org/docs/latest/building-spark.html 一、环境配置安装并配置好JDK 安装并配置好MAVEN 安装并配置好SC 阅读全文

posted @ 2019-05-06 10:35 技术小白丁阅读(369) 评论(0) 推荐(0)

Spark—初识spark

摘要：Spark——初识spark 一、Spark背景 1)MapReduce局限性 <1>仅支持Map和Reduce两种操作，提供给用户的只有这两种操作 <2>处理效率低效 Map中间结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据任务调度和启动开销大: mr的启动开销一，客户端需阅读全文

posted @ 2019-05-06 10:34 技术小白丁阅读(304) 评论(0) 推荐(0)

技术小白丁

随笔分类 - Spark

公告