摘要: 场景:推送过来的数据文件数量很多,并且每个只有10-30M的大小 spark读取hdfs一般都是用textfile(),但是对于这种情况,如果使用textFile默认产生的分区数将与文件数目一致,产生大量的任务。 对应这种小文件,spark提供了一个特殊的api, wholeTextFiles(), 阅读全文
posted @ 2020-01-21 13:34 sw_kong 阅读(1647) 评论(0) 推荐(0) 编辑
摘要: Apache Spark由于其出色的性能、简单的接口和丰富的分析和计算库而获得了广泛的行业应用。与大数据生态系统中的许多项目一样,Spark在Java虚拟机(JVM)上运行。因为Spark可以在内存中存储大量数据,因此它主要依赖于Java的内存管理和垃圾收集(GC)。但是现在,了解Java的GC选项 阅读全文
posted @ 2020-01-21 13:10 sw_kong 阅读(1671) 评论(0) 推荐(0) 编辑
摘要: 环境:CDH5.13.3 spark2.3 在提交任务之后,发现executor运行少量几台nodemanager,而其他nodemanager没有executor分配。 测试环境通过spark-shell模拟如下: 第一次尝试分配6个exeutor,具体如下 spark2-shell \ --dr 阅读全文
posted @ 2020-01-21 10:25 sw_kong 阅读(1129) 评论(0) 推荐(0) 编辑