摘要: //省略sc val arr = List(("A",1),("B",2),("A",2),("B",3)) val rdd = sc.parallelize(arr) val sortByKeyRDD = rdd.sortByKey() sortByKeyRDD.foreach(println) sc.stop # (A,1) # (A,2) # (B,2) # (B,3) #... 阅读全文
posted @ 2019-08-11 13:18 SENTIMENT_SONNE 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 按Key进行分组, 输入 List(("A",1),("B",2),("A",2),("B",3)) 输出 然后对key进行个数统计 reduceByKeyt与groupByKey的区别? ,在对大数据进行复杂计算时,reduceByKey优于groupByKey。 阅读全文
posted @ 2019-08-11 12:28 SENTIMENT_SONNE 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 按Key进行分组,使用给定的func函数聚合value值, 阅读全文
posted @ 2019-08-11 12:26 SENTIMENT_SONNE 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 把一个pair里的values变成一个数组,然后k-v1 k-v2... 如果是mapValues会输出:【对比区别】 (mobin,List(22, male))(kpop,List(20, male))(lufei,List(23, male)) 阅读全文
posted @ 2019-08-11 12:24 SENTIMENT_SONNE 阅读(1522) 评论(0) 推荐(0) 编辑
摘要: 与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD中的元素经flatmap处理后可生成多个元素 val a = sc.parallelize(1 to 4, 2) val b = a.flatMap(x => 1 to x)//每个元素扩展 b.collect /* 结果 Array[Int] = Array( 1, 1, 2, 1, 2, 3, 1, 2, 3, 4) 阅读全文
posted @ 2019-08-11 12:17 SENTIMENT_SONNE 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 从一个list变成 key value 自定义函数生成新的rdd 就是把key value变成另一个key value 阅读全文
posted @ 2019-08-11 11:59 SENTIMENT_SONNE 阅读(991) 评论(0) 推荐(0) 编辑
摘要: RNN CNN 人老珠黄。全面拥抱Transformer。 对于自然语言处理领域来说,2018 年无疑是个收获颇丰的年头, 就是Bert 模型了。 一个是 Bert 这种两阶段的模式(预训练 + Finetuning) 必将成为 NLP 领域研究和工业应用的流行方法; 第二个是从 NLP 领域的特征 阅读全文
posted @ 2019-08-11 11:26 SENTIMENT_SONNE 阅读(375) 评论(0) 推荐(0) 编辑
摘要: RNN、CNN、Transformer 阅读全文
posted @ 2019-08-11 11:17 SENTIMENT_SONNE 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 需求: 对每个班级内的学生成绩,取出前3名。(分组取topn) 实现步骤: 遍历每组,获取每组的成绩 将一组成绩转换成一个数组缓冲 将数组缓冲按从大到小排序 对排序后的数组缓冲取其前三 打印输出 阅读全文
posted @ 2019-08-11 11:00 SENTIMENT_SONNE 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 需求: 实现步骤: 阅读全文
posted @ 2019-08-11 10:59 SENTIMENT_SONNE 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 案例需求: 1、对文本文件内的每个单词都统计出其出现的次数。2、按照每个单词出现次数的数量,降序排序。 步骤: 1.创建RDD 2.将文本进行拆分 (flatMap) 3.将拆分后的单词进行统计 (mapToPair,reduceByKey) 4.反转键值对 (mapToPair) 5.按键升序排序 阅读全文
posted @ 2019-08-11 10:57 SENTIMENT_SONNE 阅读(271) 评论(0) 推荐(0) 编辑