随笔分类 - spark
摘要:spark 流计算 join 水印 窗口 spark structured streaming
阅读全文
摘要:1,对比表: RDD Dataframe Dataset 版本 1.0 1.3 1.6 描述 分布式数据集合 行列化的分布式数据集合 RDD 和 DataFrame的结合 数据格式 结构化和非结构化都可以 结构化和半结构化都可以 结构化和非结构化都可以 数据源 多种 多种 多种 不变性和互通性 容易
阅读全文
摘要:使用pyspark 的rdd api 进行了数据文件的处理,包括构建RDD, 统计分析RDD ,从文件中读取数据RDD,从文件中构建 rdd的模式shema.
然后通过模式,从rdd中生成dataframe。
阅读全文
摘要:exitCode=-1073741515 saveAsTextFile
阅读全文
摘要:一,RDD 算子: 适用于 rdd 或 (k, v)类型 1,Transformation 类型算子 map : 转化每个元素,返回 1:1比例元素输出 filter(func) : 过滤元素 flapmap :同样转化元素, 1:N输出元素 mappation: 对分区进行map, 效率高,但数据
阅读全文