2020年2月14日

RDD编程实践2-编写独立应用程序实现数据去重,实现求平均值问题

摘要: (1)编写独立应用程序实现数据去重 package my.scala import org.apache.spark.{SparkConf, SparkContext} object case2 { def main(args: Array[String]): Unit = { val conf = 阅读全文

posted @ 2020-02-14 19:19 宥宁 阅读(2374) 评论(0) 推荐(0) 编辑

spark中常用转换操作keys 、values和mapValues

摘要: 1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke 阅读全文

posted @ 2020-02-14 17:36 宥宁 阅读(1349) 评论(0) 推荐(0) 编辑

RDD编程实践1-spark-shell交互式编程

摘要: spark-shell交互式编程: 根据某大学计算机系的成绩数据,完成编程,数据格式如下 1.该系共有多少个学生: 首先新建RDD 通过map函数与分割函数得到第一列数据作为新的RDD RDD去重 行数 2.该系共开设多少课程: 3.求Tom同学的平均分: 通过filter函数进行筛选 计算总数 求 阅读全文

posted @ 2020-02-14 16:22 宥宁 阅读(887) 评论(0) 推荐(0) 编辑

导航