上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 14 下一页

2018年9月30日

关于在sqoop导入数据的时候,数据量变多的解决方案。

摘要: 今天使用sqoop导入一张表,我去查数据库当中的数据量为650条数据,但是我将数据导入到hive表当中的时候出现了563条数据,这就很奇怪了,我以为是数据错了,然后多导入了几次数据发现还是一样的问题。 然后我去查数据字段ID的值然后发现建了主键的数据怎么可能为空的那。然后我去看数据库当中的数据发现, 阅读全文

posted @ 2018-09-30 17:45 gxg123 阅读(1117) 评论(0) 推荐(0) 编辑

2018年9月29日

关于mysql当中给数据量特别大的两个表做关联查询的时候解决查询速度很慢的解决方法

摘要: 今天碰到了两个表做关联查询的mysql,这两个表的数据量都是特别大的,有一个表的数据是上亿条的数据,有一个是几百万的数据, 查询的速度是特别慢,然后我看了一下执行计划,下面是执行执行计划: 看到上面这个图这个数据量是特别大的,这个查询起来的肯定是非常慢的,而且他的类型都是ALL类型,也就是都是全表进 阅读全文

posted @ 2018-09-29 20:08 gxg123 阅读(22954) 评论(1) 推荐(3) 编辑

2018年9月28日

关于sqoop导入数据的时候添加--split-by配置项对sqoop的导入速度的影响。

摘要: 最近在搞sqoop的导入导出操作。但是今天遇到一个表数据量特别大。我们想通过sqoop的导入功能对数据进行导入,但是从oracle当中导入数据的时候,如果是需要平行导入的话必须使用--split-by,也就是设置map的数量。 一种就是不指定--split-by(切分的字段)直接使用一个map的形式 阅读全文

posted @ 2018-09-28 20:28 gxg123 阅读(861) 评论(0) 推荐(0) 编辑

2018年9月21日

在hue当中设置hive当中数据库的控制权限。

摘要: 这段时间在搞大数据的集群搭建工作,并且安装了hive的服务,但是没有对其中的数据库的操作权限做限制,每个人都可以对数据库进行增删改查。今天有空做了一下了对hive数据库当中的数据库做一些限制。 我们都是在hue的客户端进行操作hive当中的数据库。操作如下: (1)在hue界面创建登录用户: (2) 阅读全文

posted @ 2018-09-21 18:35 gxg123 阅读(6949) 评论(0) 推荐(0) 编辑

2018年9月20日

关于在hue当中执行定时任务,时间的设置。

摘要: 在hue当中调用shell脚本,做任务的定时执行,设置任务的定时执行时间。想让任务每5分钟执行一次。但是找了半天也没找到怎么设置定时任务的额执行情况。 在整个的页面当中只有定义小时,天,周,年等相关的操作的。就是没有按照时间来进行执行的。 我们可以看到在这个界面的相关的额配置。就是选择有问题。然后点 阅读全文

posted @ 2018-09-20 18:30 gxg123 阅读(1167) 评论(0) 推荐(0) 编辑

关于在hue当中调shell脚本oozie出现017: Could not lookup launched hadoop Job ID [job_1537350421540_0007] which was associated with action [0000003-180919174749982-oozie-oozi-W@shell-9865]. Failing this action!

摘要: 昨天下午集群在跑shell脚本的时候出现了,oozie出现了JA017: Could not lookup launched hadoop Job ID [job_1537350421540_0007] which was associated with action [0000003-180919 阅读全文

posted @ 2018-09-20 09:45 gxg123 阅读(612) 评论(0) 推荐(0) 编辑

2018年9月19日

关于在在hue当中执行shell脚本使用oozie调度,一直出现laucher异常退出。

摘要: 这个地方多写了一个等于号,然后oozie在执行调度的时候他还会加载一次,然后又没有相对应得表,然后就执行报错了。真的是坑。虽然问题解决了,但是在整个的过程当中还是收获了很多东西。顺便也总结一下碰到这种问题的时候的自己的一点见解。 (1)注意如果是shell的话一定要注意空格的问题。 (2)在执行的过 阅读全文

posted @ 2018-09-19 18:46 gxg123 阅读(5617) 评论(0) 推荐(0) 编辑

2018年9月12日

安装CDH在初始化CM数据库的时候出现mysql数据库连接的问题的解决方案

摘要: 我们知道cm的数据库默认使用的是postgresql数据库,但是我们想存储CM上的相关组件的元数据信息我必须吧他存储在mysql这样的关系型数据库当中,所以我们要初始化数据库使用的是下面的命令。 阅读全文

posted @ 2018-09-12 18:13 gxg123 阅读(1998) 评论(0) 推荐(0) 编辑

2018年9月11日

关于在hue当中使用oozie对sqoop 进行资源调度的出现的问题Job init failed : org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.FileNotFoundException: File does not exist: hdfs://VM200-11:8020/user/admin/.staging

摘要: 今天在做hue的资源调度的操作,执行了好多次一直报下面的错误: 看到这个错误信息我们可以看到文件不存在,其实时间的原因并不是这样的,我们提交任务到集群上面。但是任务的运行不知道该在哪一台机器上执行找不到这个目录所以就报文件不存在了我们只需要在提交任务的时候给他加上环境变量就可以避免这个错误: 让他找 阅读全文

posted @ 2018-09-11 17:30 gxg123 阅读(822) 评论(0) 推荐(0) 编辑

关于在hue当中执行脚本一直刷heart beat 但是yarn上面的任务一直停着,假死的解决方案。

摘要: 最近在做数据迁移的工作,但是那在使用hue建的工作流,提交任务之后两个任务,一个是oozie的常驻进程job laucher,还有一个就是真实的任务。action操作的任务。 执行的结果就是这样的,launcher操作一直停在95%,正真的action操作则一直停在5%这里。然后hue的日志一直在向 阅读全文

posted @ 2018-09-11 17:15 gxg123 阅读(2368) 评论(0) 推荐(0) 编辑

上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 14 下一页

导航