摘要:
一、问题现象 SparkSQL创建多个session报错,不能创建一个链接,链接Spark自带的数据库derby 2024-01-25 19:50:59.053 [INFO ]24/01/25 19:50:59 INFO !PLExecution!: Execute SQL: DROP TABLE 阅读全文
摘要:
一、Spark版本不一致报错现象 当使用client模式连接Spark的standalone集群时,报错所有的spark master的节点都没有回应。 二、问题排查思路 通过client端的日志产看没有什么有价值的信息,需要看下spark端的master的日志,docker logs spark- 阅读全文
摘要:
一、Spark读取DM数据库问题描述 当达梦的表格设计使用number数据类型时,如果没有指定精确,使用默认值,如下图所示 则在读取该表格数据时,报错如下: 24/01/12 10:43:48 ERROR Node: [47db01a8b6ff47e7840cb0a777033721]:compon 阅读全文
摘要:
一、检测防火墙命令 systemctl status firewalld 如果显示如下active表示防火墙开启 ● firewalld.service - firewalld - dynamic firewall daemon Loaded: loaded (/usr/lib/systemd/sy 阅读全文
摘要:
一、背景 客户生产环境数据量比较大的时候,有一个存储过程作业需要执行22min左右,这个作业经常出现数据库作业已经执行完毕,而大数据平台还显示正在执行中的问题。导致整个业务流程无法顺利完成。 二、原因探究 2.1 原因分析 由于oracle的存储过程使用的是jdbc的statement.execut 阅读全文
摘要:
一、 背景 客户现场的CDH6.x版本的集群执行一个大分区表时hiveserver2发生了内存溢出。下面针对该问题进行了复现并深入了解了hiveserver2内存加载使用原理;提出了解决此类问题的方案,具体内容如下。 二、HiveServer2内存溢出 2.1查看表文件个数 desc formatt 阅读全文
摘要:
一、背景 2019 年,Cloudera 与 Hortonworks 合并后,彻底完成了转型。Cloudera 果断宣布,对 CDH 和 HDP 两条产品线将仅支持到 2022 年。对于两个产品高度重合的部分会做删减和融合,结果就是推出新的数据平台 CDP (Cloudera Data Platfo 阅读全文
摘要:
一、背景 作为大数据常用的组件Hive,其在执行作业异常时会返回一些错误码。但是,hive返回的错误概括性比较强,往往看不出来具体的信息,需要进入到集群中查看详细的yarn执行日志或者hiveserver2的日志才能定位出具体的原因。 本文针对客户生产环境中常见的Hive返回的错误码进行释义,并提出 阅读全文
摘要:
1 本地源配置 服务器本地源没有配置,导致不能连接外网,参考其他可以连接外网的服务器,配置本地源。配置方法: 1.1打开CentOS.repo文件并修改 Vi /etc/yum.repos.d/CentOS.repo 1.2增加yum配置 [base] name=CentOS-$releasever 阅读全文
摘要:
一、概述 CDP大数据平台是CDH和HDP合并之后的新版本,使用的hive是3.0版本。CDP在使用上和CDH有很大的不同。 二、Hive默认创建表格不同 CDP默认创建的表格都是事务表;可以进行增、删、改、查操作,不支持设置事务表的相关参数;应该是默认已经设置好了。而CDH需要指定创建的表格时事务 阅读全文