大数据程序员

2021年4月19日

摘要：测试数据 1 A 1 1 A 2 1 B 3 2 B 11 2 D 12 2 A 13 3 B 21 3 F 22 3 A 23 4 B 36 4 A 37 1 G 91 2 A 99 3 D 93 4 E 94 ①.row_number() over(partition by X1 order b 阅读全文

posted @ 2021-04-19 11:42 大数据程序员阅读(481) 评论(0) 推荐(0) 编辑

SparkSQL读取数据加载DataFrame

摘要：加载DataFrame的流程： ①.创建SparkSession对象 ②.创建DataFrame对象 ③.创建视图 ④．数据处理 1、读取CSV格式的数据加载DataFrame 1 val session = SparkSession.builder().master("local").appNam 阅读全文

posted @ 2021-04-19 11:38 大数据程序员阅读(626) 评论(0) 推荐(0) 编辑

Transfor类算子（转换类算子）

摘要： 1、对RDD的分区重新进行划分：rdd1.coalesce(num,boolean) 1 val rdd1 = sc.parallelize(Array[String]("love1", "love2", "love3", "love4", "love5", "love6", "love7", "l 阅读全文

posted @ 2021-04-19 11:28 大数据程序员阅读(193) 评论(0) 推荐(0) 编辑

Action类算子（行动类算子）

摘要： 1、RDD的转换，将RDD转换为map：rdd.collectAsMap() val rdd = sc.parallelize(Array[(String, Int)]( ("zhangsan", 18), ("lisi", 19), ("wangwu", 20), ("maliu", 21) )) 阅读全文

posted @ 2021-04-19 11:13 大数据程序员阅读(143) 评论(0) 推荐(0) 编辑

Spark代码流程

摘要： ①.创建SparkConf() val conf = new SparkConf() conf.setMaster.. ;conf.setAppName... ②.创建SparkContext() val sc = new SparkContext(conf) ③.创建RDD val rdd = s 阅读全文

posted @ 2021-04-19 11:08 大数据程序员阅读(96) 评论(0) 推荐(0) 编辑

创建RDD的三种方式

摘要： 1、val rdd = sc.textFile... val lines :RDD[String] = sc.textFile("./data/words") 2、val rdd = sc.parallelize(Seq[xx](... ...)) val result :RDD[String]= 阅读全文

posted @ 2021-04-19 11:06 大数据程序员阅读(619) 评论(0) 推荐(0) 编辑

2021年3月11日

1

摘要： 1 阅读全文

posted @ 2021-03-11 20:19 大数据程序员阅读(27) 评论(0) 推荐(0) 编辑

2021年3月10日

11

摘要： 1 阅读全文

posted @ 2021-03-10 21:22 大数据程序员阅读(31) 评论(0) 推荐(0) 编辑

1

摘要： 1 阅读全文

posted @ 2021-03-10 12:29 大数据程序员阅读(30) 评论(0) 推荐(0) 编辑

2021年3月9日

KMeans案例

摘要： KMeans聚类基于python有两种实现方式，一种是手动写算法实现聚类，另一种是采用写好的算法自动实现聚类，下面针对两种方法进行代码实现一、数据准备文件 testSet.txt 数据如下： 1.658985 4.285136 -3.453687 3.424321 4.838138 -1.151 阅读全文

posted @ 2021-03-09 21:29 大数据程序员阅读(1020) 评论(0) 推荐(0) 编辑

大数据程序员

公告