随笔分类 -  spark

摘要:spark 流计算 join 水印 窗口 spark structured streaming 阅读全文
posted @ 2022-12-13 17:13 gaussen126 阅读(541) 评论(0) 推荐(0) 编辑
摘要:1,对比表: RDD Dataframe Dataset 版本 1.0 1.3 1.6 描述 分布式数据集合 行列化的分布式数据集合 RDD 和 DataFrame的结合 数据格式 结构化和非结构化都可以 结构化和半结构化都可以 结构化和非结构化都可以 数据源 多种 多种 多种 不变性和互通性 容易 阅读全文
posted @ 2022-07-06 15:01 gaussen126 阅读(98) 评论(0) 推荐(0) 编辑
摘要:使用pyspark 的rdd api 进行了数据文件的处理,包括构建RDD, 统计分析RDD ,从文件中读取数据RDD,从文件中构建 rdd的模式shema. 然后通过模式,从rdd中生成dataframe。 阅读全文
posted @ 2022-06-17 12:26 gaussen126 阅读(117) 评论(0) 推荐(0) 编辑
摘要:exitCode=-1073741515 saveAsTextFile 阅读全文
posted @ 2022-06-14 19:19 gaussen126 阅读(69) 评论(0) 推荐(0) 编辑
摘要:一,RDD 算子: 适用于 rdd 或 (k, v)类型 1,Transformation 类型算子 map : 转化每个元素,返回 1:1比例元素输出 filter(func) : 过滤元素 flapmap :同样转化元素, 1:N输出元素 mappation: 对分区进行map, 效率高,但数据 阅读全文
posted @ 2022-06-09 20:24 gaussen126 阅读(112) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示