百里登风

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

随笔分类 -  Spark 2.x(新特性)

6.Pair RDD操作
摘要:1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value,再聚合为key-values的过程。 在Spark里key-value RDD(pair RDD)同样是最常用的,在每个应用中基本都会用到。 pair RDD如何创建?不是通过sc.parallelize 创建 通常应用 阅读全文

posted @ 2020-01-17 11:46 百里登峰 阅读(317) 评论(0) 推荐(0) 编辑

5.RDD的Action操作和持久化persist()
摘要:1.1 Action操作 前边提到的first() 、collect() 都是Action操作。常用的有: collect():把数据返回驱动器程序中最简单、最常见的操作, 通常在单元测试中使用,数据量不能太大,因为放在内存中,数据量大会内存溢出。 reduce():类似sum() ,如:val s 阅读全文

posted @ 2020-01-16 16:43 百里登峰 阅读(1173) 评论(0) 推荐(0) 编辑

4.RDD操作之Transform
摘要:RDD 两种类型的操作: Transform转化操作 和Action行动操作。 Transform操作会由一个RDD 生成一个新的RDD,这个过程中不进行实质计算,只有当第一次Action操作时才会真正计算。 称作Lazy计算,惰性计算。 比如: scala> val a = sc.parallel 阅读全文

posted @ 2020-01-07 15:52 百里登峰 阅读(816) 评论(0) 推荐(0) 编辑

3.RDD详解和创建RDD方式
摘要:Spark 可以简单概括为 3 点: Scala 语法 RDD 操作(Transform & Action) 分布式化 做 Spark 开发, 其实就是用 Scala 语言进行 RDD 操作, Spark 会自动将 RDD 中的数据分发到集群上, 并将操作并行化执行。 Java 工程师做分布式开发的 阅读全文

posted @ 2020-01-06 18:50 百里登峰 阅读(723) 评论(0) 推荐(0) 编辑

2.Spark 2.x 集群部署和测试
摘要:配置免密度登录 执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车, 生成的密钥对 id_rsa, id_rsa.pub,默认存储在~/.ssh 目录下 现在给slave1节点设置公钥 执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车, 生成的密钥对 i 阅读全文

posted @ 2019-12-31 17:58 百里登峰 阅读(424) 评论(0) 推荐(0) 编辑

1.Cloudera Manager安装
摘要:安装环境采用2台虚拟机进行,一台master, 一台slave1 先安装好centos 6.5 两台,并设置静态ip 怎么安装可以参考地址:https://jingyan.baidu.com/article/25648fc1a235c99191fd0008.html 关闭防火墙 设置成disable 阅读全文

posted @ 2019-12-11 15:54 百里登峰 阅读(321) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示