上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 14 下一页

2018年12月13日

关于spark通过idea提交任务到集群的操作,本地机器和远程的spark集群的网络不同的操作。

摘要: 今天在将本地idea当中的代码提交到远程的spark集群的时候,出现了下面的错误 看到这个错的第一反应就是集群本地和spark的通讯是不是正常的,因为我们通过本地提交任务的时候启动了spark_ui界面这个相当于在本地进行操作的,相当于spark的client。但是真正的执行者又是在集群当中。所以两 阅读全文

posted @ 2018-12-13 20:05 gxg123 阅读(1115) 评论(0) 推荐(0) 编辑

关于在maven当中引入CDH包不能引入的解决方案

摘要: 最近在做spark远程操作CM安装的集群,创建的maven工程但是cdh的jar包就是下载不下来。怀疑是maven的原因,但是maven的版本换了好多,还是不行。(我们安装的CM集群是5.14.0) 还有一种办法是手动的加入到maven仓库当中。都是那么多表手动加累死。 最后在网上看大别人写的在po 阅读全文

posted @ 2018-12-13 19:31 gxg123 阅读(810) 评论(0) 推荐(0) 编辑

2018年12月4日

HDFS NFS Gateway 无法启动、挂载失败问题(CM集群安装HDFS)

摘要: 今天在搭建集群的时候给HDFS添加角色的时候,出现了 NFS Gateway 一直启动失败,具体的错误如下: 具体的错误如下No portmap or rpcbind service is running on this host. Please start portmap or rpcbind s 阅读全文

posted @ 2018-12-04 10:33 gxg123 阅读(989) 评论(0) 推荐(0) 编辑

2018年12月1日

在cm安装的大数据管理平台中集成impala之后读取hive表中的数据的设置(hue当中执行impala的数据查询)

摘要: 今天装了CM集群,在集群当中集成了impala,hive。然后一直觉得认为impala自动共享hive的元数据,最后发现好像并不是这样的,需要经过一个同步元数据的操作才能实现数据的同步。 具体的做法如下: (1)安装好hive和impala,然后在hive当中创建目标数据库,创建一张表 2. 在Im 阅读全文

posted @ 2018-12-01 17:34 gxg123 阅读(2343) 评论(0) 推荐(0) 编辑

2018年11月26日

在hue里面集成spark2,使用oozie的调度

摘要: 1.Oozie共享库添加Spark2 1.1查看当前Oozie的share-lib共享库HDFS目录 1.2.在Oozie的/user/oozie/share/lib/lib_20181112142531创建spark2目录 1.3.向spark2目录添加spark2的jars和oozie-shar 阅读全文

posted @ 2018-11-26 11:43 gxg123 阅读(1487) 评论(0) 推荐(0) 编辑

2018年11月13日

在CM管理的大数据平台上集成spark2

摘要: 这几天在写一个spark的程序做数据的迁移工作,但是我看了一下cm管理的spark的版本是1.6.0的spark(我们集群安装的cm的版本是5.14.0的版本)于是就要将spark2集成到我们的大数据管理平台当中去。步骤如下: 通过这张图我们可以看到,在cm的管理平台上,有两种集成模式的spark。 阅读全文

posted @ 2018-11-13 13:36 gxg123 阅读(941) 评论(0) 推荐(0) 编辑

2018年10月31日

关于使用oozie做任务调度的问题。出现SQOOP from Oracle Connection reset error(从oracle导入数据到HDFS上面)

摘要: 最近在做通过sqoop 将oracle数据库当中的数据导入的HDFS上面,但是当我串行的时候是没有一点问题的。但是为了达到集群当中资源的额最大的使用率。想让导入数据做成并行去处理。在做并行的时候,有时候是好的,有时候就出错,这样不稳定的系统真的头大。出现的问题如下: 看到上面的问题,第一反应应该是o 阅读全文

posted @ 2018-10-31 17:30 gxg123 阅读(519) 评论(0) 推荐(0) 编辑

2018年10月24日

关于hive当中取行号为1和oracle当中去行号为1的函数的总结

摘要: 今天在做将oracle当中获取到排序后的第一行的数据执行的sql如下: 然后我们去hive里面进行改造: 阅读全文

posted @ 2018-10-24 19:50 gxg123 阅读(455) 评论(0) 推荐(0) 编辑

2018年10月23日

关于hive当中的map输入数据和reduce输出数据的合并。

摘要: 最近在做要执行很复杂的sql.然后在文件输出的时候出现了一堆小文件: 为啥要对小文件进行合并一句话总结为:文件数目过多,增加namenode的压力。因为每一个文件的元数据信息都是存在namenode上面的。所以要减少小文件的数据量。 同时也是降低下一个程序处理这些小文件,启动和小文件一样数量的map 阅读全文

posted @ 2018-10-23 18:14 gxg123 阅读(1076) 评论(0) 推荐(0) 编辑

关于sqoop导入数据到hive数据库当中,表中数据为空倒入hive当中的处理

摘要: 今天在hive数据库当中查询一张表,查询数据为空的值,但是死活就是匹配不到: 查询语句如下: 我直接插寻这个字段是有值的啊,也是为null,为啥就不可以啊。原来真正的问题的源头是从我们使用sqoop导入数据开始的。在sqoop导入数据的时候如果不对null做处理,他会将原来为null的值导入的时候 阅读全文

posted @ 2018-10-23 11:24 gxg123 阅读(727) 评论(0) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 14 下一页

导航