Spark 2.x(新特性） - 随笔分类 - 百里登峰

6.Pair RDD操作

摘要：1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value，再聚合为key-values的过程。在Spark里key-value RDD（pair RDD）同样是最常用的，在每个应用中基本都会用到。 pair RDD如何创建？不是通过sc.parallelize 创建通常应用阅读全文

posted @ 2020-01-17 11:46 百里登峰阅读(332) 评论(0) 推荐(0)

5.RDD的Action操作和持久化persist()

摘要：1.1 Action操作前边提到的first() 、collect() 都是Action操作。常用的有： collect()：把数据返回驱动器程序中最简单、最常见的操作, 通常在单元测试中使用，数据量不能太大，因为放在内存中，数据量大会内存溢出。 reduce()：类似sum() ，如：val s 阅读全文

posted @ 2020-01-16 16:43 百里登峰阅读(1218) 评论(0) 推荐(0)

4.RDD操作之Transform

摘要：RDD 两种类型的操作： Transform转化操作和Action行动操作。 Transform操作会由一个RDD 生成一个新的RDD，这个过程中不进行实质计算，只有当第一次Action操作时才会真正计算。称作Lazy计算，惰性计算。比如： scala> val a = sc.parallel 阅读全文

posted @ 2020-01-07 15:52 百里登峰阅读(851) 评论(0) 推荐(0)

3.RDD详解和创建RDD方式

摘要：Spark 可以简单概括为 3 点： Scala 语法 RDD 操作（Transform & Action）分布式化做 Spark 开发，其实就是用 Scala 语言进行 RDD 操作， Spark 会自动将 RDD 中的数据分发到集群上，并将操作并行化执行。 Java 工程师做分布式开发的阅读全文

posted @ 2020-01-06 18:50 百里登峰阅读(743) 评论(0) 推荐(0)

2.Spark 2.x 集群部署和测试

摘要：配置免密度登录执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车，生成的密钥对 id_rsa， id_rsa.pub，默认存储在~/.ssh 目录下现在给slave1节点设置公钥执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车，生成的密钥对 i 阅读全文

posted @ 2019-12-31 17:58 百里登峰阅读(447) 评论(0) 推荐(0)

1.Cloudera Manager安装

摘要：安装环境采用2台虚拟机进行，一台master, 一台slave1 先安装好centos 6.5 两台，并设置静态ip 怎么安装可以参考地址：https://jingyan.baidu.com/article/25648fc1a235c99191fd0008.html 关闭防火墙设置成disable 阅读全文

posted @ 2019-12-11 15:54 百里登峰阅读(356) 评论(0) 推荐(0)

百里登风

导航