gxg123

关于spark通过idea提交任务到集群的操作，本地机器和远程的spark集群的网络不同的操作。

摘要：今天在将本地idea当中的代码提交到远程的spark集群的时候，出现了下面的错误看到这个错的第一反应就是集群本地和spark的通讯是不是正常的，因为我们通过本地提交任务的时候启动了spark_ui界面这个相当于在本地进行操作的，相当于spark的client。但是真正的执行者又是在集群当中。所以两阅读全文

posted @ 2018-12-13 20:05 gxg123 阅读(1149) 评论(0) 推荐(0)

关于在maven当中引入CDH包不能引入的解决方案

摘要：最近在做spark远程操作CM安装的集群，创建的maven工程但是cdh的jar包就是下载不下来。怀疑是maven的原因，但是maven的版本换了好多，还是不行。（我们安装的CM集群是5.14.0）还有一种办法是手动的加入到maven仓库当中。都是那么多表手动加累死。最后在网上看大别人写的在po 阅读全文

posted @ 2018-12-13 19:31 gxg123 阅读(820) 评论(0) 推荐(0)

HDFS NFS Gateway 无法启动、挂载失败问题（CM集群安装HDFS）

摘要：今天在搭建集群的时候给HDFS添加角色的时候，出现了 NFS Gateway 一直启动失败，具体的错误如下：具体的错误如下No portmap or rpcbind service is running on this host. Please start portmap or rpcbind s 阅读全文

posted @ 2018-12-04 10:33 gxg123 阅读(1065) 评论(0) 推荐(0)

在cm安装的大数据管理平台中集成impala之后读取hive表中的数据的设置（hue当中执行impala的数据查询）

摘要：今天装了CM集群，在集群当中集成了impala，hive。然后一直觉得认为impala自动共享hive的元数据，最后发现好像并不是这样的，需要经过一个同步元数据的操作才能实现数据的同步。具体的做法如下：（1）安装好hive和impala，然后在hive当中创建目标数据库，创建一张表 2. 在Im 阅读全文

posted @ 2018-12-01 17:34 gxg123 阅读(2363) 评论(0) 推荐(0)

在hue里面集成spark2，使用oozie的调度

摘要： 1.Oozie共享库添加Spark2 1.1查看当前Oozie的share-lib共享库HDFS目录 1.2.在Oozie的/user/oozie/share/lib/lib_20181112142531创建spark2目录 1.3.向spark2目录添加spark2的jars和oozie-shar 阅读全文

posted @ 2018-11-26 11:43 gxg123 阅读(1539) 评论(0) 推荐(0)

在CM管理的大数据平台上集成spark2

摘要：这几天在写一个spark的程序做数据的迁移工作，但是我看了一下cm管理的spark的版本是1.6.0的spark（我们集群安装的cm的版本是5.14.0的版本）于是就要将spark2集成到我们的大数据管理平台当中去。步骤如下：通过这张图我们可以看到，在cm的管理平台上，有两种集成模式的spark。阅读全文

posted @ 2018-11-13 13:36 gxg123 阅读(960) 评论(0) 推荐(0)

关于使用oozie做任务调度的问题。出现SQOOP from Oracle Connection reset error（从oracle导入数据到HDFS上面）

摘要：最近在做通过sqoop 将oracle数据库当中的数据导入的HDFS上面，但是当我串行的时候是没有一点问题的。但是为了达到集群当中资源的额最大的使用率。想让导入数据做成并行去处理。在做并行的时候，有时候是好的，有时候就出错，这样不稳定的系统真的头大。出现的问题如下：看到上面的问题，第一反应应该是o 阅读全文

posted @ 2018-10-31 17:30 gxg123 阅读(541) 评论(0) 推荐(0)

关于hive当中取行号为1和oracle当中去行号为1的函数的总结

摘要：今天在做将oracle当中获取到排序后的第一行的数据执行的sql如下：然后我们去hive里面进行改造：阅读全文

posted @ 2018-10-24 19:50 gxg123 阅读(498) 评论(0) 推荐(0)

关于hive当中的map输入数据和reduce输出数据的合并。

摘要：最近在做要执行很复杂的sql.然后在文件输出的时候出现了一堆小文件：为啥要对小文件进行合并一句话总结为：文件数目过多，增加namenode的压力。因为每一个文件的元数据信息都是存在namenode上面的。所以要减少小文件的数据量。同时也是降低下一个程序处理这些小文件，启动和小文件一样数量的map 阅读全文

posted @ 2018-10-23 18:14 gxg123 阅读(1147) 评论(0) 推荐(0)

关于sqoop导入数据到hive数据库当中，表中数据为空倒入hive当中的处理

摘要：今天在hive数据库当中查询一张表，查询数据为空的值，但是死活就是匹配不到：查询语句如下：我直接插寻这个字段是有值的啊，也是为null，为啥就不可以啊。原来真正的问题的源头是从我们使用sqoop导入数据开始的。在sqoop导入数据的时候如果不对null做处理，他会将原来为null的值导入的时候阅读全文

posted @ 2018-10-23 11:24 gxg123 阅读(758) 评论(0) 推荐(0)