随笔分类 -  bigData-Spark

摘要:RDD怎么理解? RDD 是 Spark 的灵魂,也称为弹性分布式数据集。一个 RDD 代表一个可以被分区的只读数据集。RDD 内部可以有许多分区(partitions),每个分区又拥有大量的记录(records)。Rdd的五个特征: 1. dependencies: 建立 RDD 的依赖关系,主要 阅读全文
posted @ 2019-03-14 16:12 昕友软件开发 阅读(2819) 评论(0) 推荐(0) 编辑
摘要:Pair RDD转化操作 val rdd = sc.parallelize(List((1,2),(3,4),(3,6))) //reduceByKey,通过key来做合并val r1 = rdd.reduceByKey((x,y)=>x+y).collect()val r1 = rdd.reduc 阅读全文
posted @ 2017-06-16 16:46 昕友软件开发 阅读(301) 评论(0) 推荐(0) 编辑
摘要:1、最基本的Map用法 val data = Array(1, 2, 3, 4, 5)val distData = sc.parallelize(data)val result = distData.map(x=>x*x)println(result.collect().mkString(",")) 阅读全文
posted @ 2017-06-15 16:38 昕友软件开发 阅读(438) 评论(0) 推荐(0) 编辑
摘要:1、创建数据框架 Creating DataFrames val df = spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json");df.show(); 写到hdfs路径:df.select 阅读全文
posted @ 2017-06-14 17:35 昕友软件开发 阅读(1227) 评论(0) 推荐(0) 编辑

欢迎访问我的开源项目:xyIM企业即时通讯
点击右上角即可分享
微信分享提示