摘要: spark sql在读取hive表时,配置、spark与hive版本、等等很多因素可能会导致操作失败,本随笔就以下异常记录排查方案。 集群环境:HDP3 组件版本:spark2.3.0、hive3.0.0.3.0 ERROR yarn.ApplicationMaster:user class thr 阅读全文
posted @ 2020-09-08 15:00 sssuperMario 阅读(505) 评论(0) 推荐(0) 编辑
摘要: 手头正好需要一个xml转bean的工具和xml解析工具,网上实现很多,自己造一次轮子,一整套流程直接复制可用,一分钟实现转换加解析(xml转换使用idea实现,eclipse同样有工具,一搜一大把这里就不赘述了)。本文可转载,标注来源即可。 1.xml转xsd 1.1样例XML(persons.xm 阅读全文
posted @ 2020-08-28 15:27 sssuperMario 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: public class Parser { /** * 将字符串text中由openToken和closeToken组成的占位符依次替换为args数组中的值 * @param openToken * @param closeToken * @param text * @param args * @r 阅读全文
posted @ 2020-08-22 09:49 sssuperMario 阅读(3167) 评论(0) 推荐(0) 编辑
摘要: 必要设置 es.resource Elasticsearch资源位置,在该位置读取和写入数据。需要格式 <index>/<type> es.resource.read(默认为es.resource) 用于读取(但不写入)数据的Elasticsearch资源。在同一作业中将数据读取和写入不同的Elas 阅读全文
posted @ 2020-08-19 15:41 sssuperMario 阅读(1580) 评论(0) 推荐(0) 编辑
摘要: 需要依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.0.0</version> </dependency> <dependency> <gro 阅读全文
posted @ 2020-08-12 13:51 sssuperMario 阅读(202) 评论(0) 推荐(0) 编辑
摘要: <build> <resources> <resource> <directory>src/main/java</directory> <includes> <include>**/*.properties</include> <include>**/*.xml</include> </includ 阅读全文
posted @ 2020-08-07 22:36 sssuperMario 阅读(389) 评论(0) 推荐(0) 编辑
摘要: SparkSql读取hive-NumberFormatException:For input string:“0000001_0000” HDP3集群环境下,spark2.3 在使用Spark Sql操作hive表时出现异常: java.lang.NumberFormatException:For 阅读全文
posted @ 2020-08-07 09:57 sssuperMario 阅读(782) 评论(0) 推荐(0) 编辑
摘要: HADOOP集群各组件性能调优配置原则如何发挥集群最佳性能原则1:CPU核数分配原则原则2:内存分配原则3:虚拟CPU个数分配原则4:提高磁盘IO吞吐率影响性能的因素因素1:文件服务器磁盘I/O因素2:文件服务器网络带宽因素3:集群节点硬件配置因素4:SFTP参数配置因素5:集群参数配置因素6:Li 阅读全文
posted @ 2020-07-15 10:26 sssuperMario 阅读(746) 评论(0) 推荐(0) 编辑
摘要: 在spark的优化过程中,shuffle的分区数量和数据倾斜问题一直是一个令人比较头疼的问题,自Spark 2.3.1版本后,自动设置shuffle Partition最新代码正式加入,但动态调整执行计划与处理数据倾斜并未同期并入该版本. 关于原理很多文章已经分析的差不多了,这里并不做提及,主要是记 阅读全文
posted @ 2020-07-14 14:27 sssuperMario 阅读(1446) 评论(0) 推荐(0) 编辑
摘要: Hbase2.x RIT修复RITOPENINGCLOSING hbase2.0.x由于不稳定性因素太多,还是有太多的坑,特别是没有了hbck工具的修复功能,出现问题,解决起来还是非常不方便的。躺了好评多坑,积累一下经验,持续更新。 RIT rit不用多解释了,hbase运维过程中相当令人头疼的,但 阅读全文
posted @ 2020-06-19 14:10 sssuperMario 阅读(652) 评论(0) 推荐(0) 编辑