摘要: 文章目录前言最佳实践前言和Talend这款软件打交道有一段时间了,主要用它来做一些ETL相关的作业开发,以下总结了一些自己配置与开发过程中的最佳实践。最佳实践可以通过修改Talend Studio 的 .ini 配置文件来给其分配更多的内存,例如,以下是我在... 阅读全文
posted @ 2019-03-01 21:24 LestatZ 阅读(786) 评论(0) 推荐(0) 编辑
摘要: 文章目录 问题描述 什么是applicationId 解决方法 文章目录 问题描述 什么是applicationId 解决方法 问题描述 什么是applicationId 解决方法 问题描述 什么是applicationId 解决方法 问题描述 什么是applicationId 解决方法 问题描述 阅读全文
posted @ 2019-03-01 20:15 LestatZ 阅读(1595) 评论(0) 推荐(0) 编辑
摘要: JVM主要的内存区域有heapstack其它寄存器。heap主要是用来存储对象实例及数组值,可以认为java中所有通过new创建的对象都在此分配。On-heap是指在堆内内存,由GC进行创建回收,可以通过参数-Xms(最小)和-Xmx(最大)来控制Off-h... 阅读全文
posted @ 2019-03-01 19:24 LestatZ 阅读(1992) 评论(0) 推荐(0) 编辑
摘要: 文章目录 前言 RDD、DataFrame和DataSet的定义 RDD、DataFrame和DataSet的比较 Spark版本 数据表示形式 数据格式 编译时类型安全 序列化 垃圾回收 效率/内存使用 编程语言支持 聚合操作(Aggregation) 结论 文章目录 前言 RDD、DataFra 阅读全文
posted @ 2019-03-01 15:50 LestatZ 阅读(7605) 评论(0) 推荐(0) 编辑
摘要: 文章目录 前言 一些资源参数设置的基本知识 不同配置的优劣分析 第一种方法:使用较小的executors 第二种方法:使用较大的executors 第三种方法:使用优化的executors 文章目录 前言 一些资源参数设置的基本知识 不同配置的优劣分析 第一种方法:使用较小的executors 第二 阅读全文
posted @ 2019-03-01 13:47 LestatZ 阅读(6309) 评论(1) 推荐(0) 编辑
摘要: 文章目录 一些常用的Spark SQL调优技巧 文章目录 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 使用缓存表 在sparksql中,当我们创建表时,我 阅读全文
posted @ 2019-03-01 12:49 LestatZ 阅读(2900) 评论(0) 推荐(0) 编辑