摘要: ==java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray== 解决步骤: 1.到spark官网查询spark与hadoop版本的兼容信息 2.下载对应版 阅读全文
posted @ 2020-04-22 23:18 Q1Zhen 阅读(529) 评论(0) 推荐(0) 编辑
摘要: 原文链接:[https://blog.csdn.net/qq_35885488/article/details/102745211] 相关链接:[https://www.cnblogs.com/StitchSun/p/10656246.html] RDD提供了两种类型的操作:transformati 阅读全文
posted @ 2020-04-22 17:08 Q1Zhen 阅读(428) 评论(0) 推荐(0) 编辑
摘要: 什么是RDD(Resilient Distributed Dataset) ==RDD==叫作弹性分布式数据集合,是spark中最基本的数据(计算、逻辑)抽象,在代码中它是一个抽象类,代表一个不可变、可分区、里面的元素的可并行计算的集合。 RDD属性 1.一组分区,即数据集的基本组成单位 2.一个计 阅读全文
posted @ 2020-04-22 00:55 Q1Zhen 阅读(332) 评论(0) 推荐(0) 编辑