随笔分类 - TDH和CDH大数据平台
TDH和CDH大数据平台的相关操作和使用方法
摘要:一、背景 作为大数据常用的组件Hive,其在执行作业异常时会返回一些错误码。但是,hive返回的错误概括性比较强,往往看不出来具体的信息,需要进入到集群中查看详细的yarn执行日志或者hiveserver2的日志才能定位出具体的原因。 本文针对客户生产环境中常见的Hive返回的错误码进行释义,并提出
阅读全文
摘要:一、问题描述 在使用CDH6.3.2的集群处理数据时,当创建的表格为orc格式,且表格中存在null字段时,where中的<>条件没有生效; 建表语句为: CREATE TABLE DWD_PC_INT_ZM_StockPoolComponent( ID bigint , JSID bigint ,
阅读全文
摘要:一、概述 在银行、基金和证券行业中,集群往往开启了kerberos安全验证,而如果用户创建kerberos用户的方式不对,就会产生各种各样的问题;比如当用户只创建了kerberos用户而没有将该用户名与系统用户绑定时,就会报错该用户找不到;涉及到shuffle操作的作业都会报类似的错误。 二、错误的
阅读全文
摘要:一、概述 kerberos是TDH和CDH平台常用的一种安全验证协议;在TDH中可以根据设置,直接登录到TDH安全协议模块下载keytab文件使用,但是在CDH平台中需要自己生成keytab文件。 二、CDH使用kerberos方式 1、进入到kerberos kadmin.local 2、查看ke
阅读全文
摘要:一、TDH开启kerberos后登陆hive方式 TDH的hive是继承到平台中的,需要使用远程的方式连接hive数据库,当kerberos开启后,需要添加kerberos协议规则;使用方式如下 beeline -u 'jdbc:hive2://localhost:10000/demo;princi
阅读全文
摘要:一、概述 TDH使用方式和CDH有很大不同,需要先下载客户端,然后source其中的init.sh文件,使之生效,然后才能使用hdfs命令。 二、步骤 1、进入到管理界面,然后下载客户端 2、建立一个个人目录 mkdir /home/demo 然后将下载的客户端放入该目录中,解压客户端文件 sour
阅读全文
摘要:一、概述 每个job提交到yarn上执行时,都会分配Container容器去运行,而这个容器需要资源才能运行,这个资源就是Cpu和内存。 1、CPU资源调度 目前的CPU被Yarn划分为虚拟CPU,这是yarn自己引入的概念,表示的是每台中可以分配给yarn的Cpu核数,因为每个服务器的Cpu计算能
阅读全文