摘要:
_1 表示访问元组第一个(下标为0)的元素 _2 表示访问元组第二个(下标为1)的元素 _3 表示访问元组第三个(下标为2)的元素 阅读全文
随笔分类 - spark
spark dataset
2021-10-22 14:34 by ZealouSnesS, 169 阅读, 收藏, 编辑
摘要:
spark 直接通过 object 创建 dataset: sparkSession.createDataset(Seq(obj1, obj2, obj3...)) spark 创建空 dataset: sparkSession.emptyDataset[类名] 阅读全文
spark 广播变量
2021-08-25 16:14 by ZealouSnesS, 944 阅读, 收藏, 编辑
摘要:
参考:Spark学习之路 (四)Spark的广播变量和累加器 - 扎心了,老铁 - 博客园 (cnblogs.com) 一、概述 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量 阅读全文
spark map中忽略某些行
2021-08-23 13:44 by ZealouSnesS, 102 阅读, 收藏, 编辑
摘要:
用 mapPartiton def missingFeatures(stuff): Boolean = ??? // Determine if features is missing val data = sc.textFile(my_file) .flatMap {line => if(missi 阅读全文