摘要:
通过maven打完包,运行jars时,会输出警告log4j:WARN No appenders could be found for logger (com.dlht.DataCenterSYNC.opt.App).log4j:WARN Please initialize the log4j sys... 阅读全文
摘要:
之前我还在想了解下datax,是否有可能替换sqoop,但了解后发现,datax和sqoop的业务场景是不同的。前者适合异构数据库的同步,后者适合hdfs与rdbms互相之间的同步。针对sqoop的应用场景使用datax那么速度会有加倍的差距。主要原因在于datax是一个节点写数据,而sqoop... 阅读全文
摘要:
如题 阅读全文
摘要:
其实就是from表时,可以插入到多个表。 sql语句的模板如下:from historyinsert overwrite sales select * where actino='purchased'inesrt overwrite credits select * where action = '... 阅读全文
摘要:
将set hive.limit.optimize.enable=true 时,limit限制数据时就不会全盘扫,而是根据限制的数量进行抽样。同时还有两个配置项需要注意:1、hive.limit.row.max.size 我理解这个是控制最大的抽样数量2、 hive.limit.optimize.l... 阅读全文
摘要:
可以通过修改set hive.exec.parallel=true来修改并行度。如果job中并行执行的阶段增多,那么集群利用率会增加。 阅读全文
摘要:
转自 :http://mp.weixin.qq.com/s?__biz=MzA5ODM5MDU3MA==&mid=401136434&idx=1&sn=774a4e53d95ff9e34fbfa57df44dbb8d&scene=2&srcid=12162ON7Ty466yoisUvGaKsD&fr... 阅读全文
摘要:
转自http://lookqlp.iteye.com/blog/2189119 。 配置起来较复杂,需要在有测试环境之后再进行配置测试。 之后是有上HUE的计划的,所以这个也是一定要做的。目标:给各个业务组提供不同用户及用户组,并有限制的访问hdfs路径,及hive数据库。前提:clouderac... 阅读全文
摘要:
转自 http://molisa.iteye.com/blog/1953390 我主要是根据这个说明调整的HUE的时区问题 在使用Cloudera Hue时遇到一问题: 1. 使用Sqoop导入功能时,由于配置错误,使得“保存运行”后Job并不能正常提交,且界面上没有相关提示: 使用Hue的Sqoo 阅读全文
摘要:
Linux根分区扩容1.fdisk–l(红线部分为新添加的硬盘)2.磁盘格式化3.mkfs.ext3-Tlargefile/dev/sde(格式化上面的分区)4.vgdisplay查看当前卷组情况(红色内容表明没有可用的扩展空间)5.pvcreate/dev/sde创建pv6.vgextendVol... 阅读全文