代码改变世界

随笔分类 -  spark

scala 下划线访问元组 _1 _2 _3

2022-01-06 14:51 by ZealouSnesS, 103 阅读, 收藏, 编辑
摘要: _1 表示访问元组第一个(下标为0)的元素 _2 表示访问元组第二个(下标为1)的元素 _3 表示访问元组第三个(下标为2)的元素 阅读全文

spark dataset

2021-10-22 14:34 by ZealouSnesS, 169 阅读, 收藏, 编辑
摘要: spark 直接通过 object 创建 dataset: sparkSession.createDataset(Seq(obj1, obj2, obj3...)) spark 创建空 dataset: sparkSession.emptyDataset[类名] 阅读全文

spark 广播变量

2021-08-25 16:14 by ZealouSnesS, 944 阅读, 收藏, 编辑
摘要: 参考:Spark学习之路 (四)Spark的广播变量和累加器 - 扎心了,老铁 - 博客园 (cnblogs.com) 一、概述 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量 阅读全文

spark map中忽略某些行

2021-08-23 13:44 by ZealouSnesS, 102 阅读, 收藏, 编辑
摘要: 用 mapPartiton def missingFeatures(stuff): Boolean = ??? // Determine if features is missing val data = sc.textFile(my_file) .flatMap {line => if(missi 阅读全文
点击右上角即可分享
微信分享提示