摘要: 本篇主要是Dataframe的相关使用 RDD在我们的使用过程,每一行存储的是一个RDD对象。 RDD中有很多算子,可以供我们使用。比如最简单的wordcount,我们只需要简单的三个算子就可以完成hadoop写若干行代码才能完成的事,开发效率大大提升。 我们上一讲提到的算子有map,reduceB 阅读全文
posted @ 2020-12-25 16:00 枯老昏瘦 阅读(364) 评论(0) 推荐(0) 编辑
摘要: spark中常用的两种数据类型,一个是RDD,一个是DataFrame,本篇主要介绍RDD的一些应用场景见代码本代码的应用场景是在spark本地调试(windows环境) /** * 创建 sparkSession对象 */ val sparkSession = SparkSession.build 阅读全文
posted @ 2020-12-25 12:01 枯老昏瘦 阅读(214) 评论(0) 推荐(0) 编辑