上一页 1 ··· 4 5 6 7 8 9 10 11 12 13 下一页
摘要: 先上图: 每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入 阅读全文
posted @ 2020-04-24 20:20 Q1Zhen 阅读(1336) 评论(1) 推荐(0) 编辑
摘要: withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAG visualization on SparkUI) 以前的sparkUI中只有stage的执行情况,也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在 sparkUI中能展示更多的信息。所以把所有创 阅读全文
posted @ 2020-04-23 23:21 Q1Zhen 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。 针对pair RDD这样的特殊形式,spark中定义了 阅读全文
posted @ 2020-04-23 21:05 Q1Zhen 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 喝水不忘挖井人,感谢阿里巴巴项目组提供了easyexcel工具类,github地址:https://github.com/alibaba/easyexcel 原文链接:https://blog.csdn.net/qq_32258777/article/details/89031479 文章目录环境搭 阅读全文
posted @ 2020-04-23 18:53 Q1Zhen 阅读(240) 评论(0) 推荐(0) 编辑
摘要: ==java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray== 解决步骤: 1.到spark官网查询spark与hadoop版本的兼容信息 2.下载对应版 阅读全文
posted @ 2020-04-22 23:18 Q1Zhen 阅读(529) 评论(0) 推荐(0) 编辑
摘要: 原文链接:[https://blog.csdn.net/qq_35885488/article/details/102745211] 相关链接:[https://www.cnblogs.com/StitchSun/p/10656246.html] RDD提供了两种类型的操作:transformati 阅读全文
posted @ 2020-04-22 17:08 Q1Zhen 阅读(427) 评论(0) 推荐(0) 编辑
摘要: 什么是RDD(Resilient Distributed Dataset) ==RDD==叫作弹性分布式数据集合,是spark中最基本的数据(计算、逻辑)抽象,在代码中它是一个抽象类,代表一个不可变、可分区、里面的元素的可并行计算的集合。 RDD属性 1.一组分区,即数据集的基本组成单位 2.一个计 阅读全文
posted @ 2020-04-22 00:55 Q1Zhen 阅读(332) 评论(0) 推荐(0) 编辑
摘要: Standalone 构建一个由==Master+Slave==构成的Spark集群。 安装使用 1.进入spark安装目录的conf文件夹 2.修改spark env.sh,默认是只有spark env.sh.template文件,将其重命名或者拷贝重命名 3.修改slave文件,添加worker 阅读全文
posted @ 2020-04-21 18:22 Q1Zhen 阅读(135) 评论(0) 推荐(0) 编辑
摘要: Yarn模式 Spark客户端直接连接Yarn,不需要额外构建Spark集群。有$\color{red}{Yarn client}$和$\color{red}{Yarn cluster}$两种模式。主要区别在于Driver程序的运行节点。 1.yarn client:Driver程序运行在客户端,适 阅读全文
posted @ 2020-04-21 16:53 Q1Zhen 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 一、接口的默认方法 Java 8允许我们给接口添加一个非抽象的方法实现,只需要使用 default关键字即可,这个特征又叫做扩展方法,示例如下: interface Formula { double calculate(int a); default double sqrt(int a) { ret 阅读全文
posted @ 2020-04-19 21:47 Q1Zhen 阅读(287) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 13 下一页