摘要:
这个是Ralph kimball ETL的书籍,其中第10章主要讲如何管理数据仓库团队,ETL团队是属于数据仓库团队的;第一章和第二章是概况性的介绍,强烈建议大家都看下1/2/10章,对于大家形成对数据仓库和ETL共同的认识。 下面和大家分享下一些观点,英文的都是从Ralph kimball的书里面摘抄下来的,大家可以到书中对应章节看更详细的介绍,中文截图来自互联网。希望对大家形成... 阅读全文
摘要:
创建一个topic: [root@hdp1 bin]# ./kafka-topics.sh --create --zookeeper hdp1:2181 --replication-factor 1 --partitions 1 --topic justin Created topic "justin". [root@hdp1 bin]# pwd /usr/hdp/2.2.6.0-2800/k... 阅读全文
摘要:
首先,解决talend连接hbase的问题: 公司使用的机器是HDP2.2的机器,上面配置好Hbase服务,在集群的/etc/hbase/conf/hbase-site.xml下,有如下配置: zookeeper.znode.parent /hbase-unsecure 这个配置是决定, Hbase master在zookeeper中,存储数据的根节点,如果不... 阅读全文
摘要:
hbase(main):036:0> get 'ddl', 'example', 'info:age'COLUMN CELL info:age timestamp=1436787562408, value=\x00\x00... 阅读全文
摘要:
名称命令表达式 创建表create '表名称','列簇名称1','列簇名称2'....... 添加记录put '表名称', '行名称','列簇名称:','值' 查看记录get '表名称','行名称' 查看表中的记录总数count '表名称' 删除记录delete '表名',行名称','列簇名称' 删除表①disable '表名称' ②drop '表名称' 查看所有记 阅读全文
摘要:
首先,概览下任务图: 流程是,先用tHDFSDelete将hdfs上的文件删除掉,然后将oracle中的机构表中的数据导入到HDFS中;建立hive连接-》hive建表-》tJava获取系统时间-》tHiveLoad将hdfs上的文件导入到hive表中。 下面介绍每一个组件的设置: tHDFSDelete_1: 机构: tHDFSOutput_1: hive: tHiveCreateT... 阅读全文
摘要:
thiveInput->tmap->tMysqloutput thiveInput: tmap: tmysqlOutput:注意编码问题:noDatetimeStringSync=true&useUnicode=true&characterEncoding=UTF-8 阅读全文
摘要:
先使用Tos建立模型,将Oracle中的数据导入到本地: build job后,形成独立可以运行的程序: 将生成的zip文件,上传到hadoop集群上,有hive环境的机器上: [hive@h1 work]$ ls file.zip jobInfo.properties join lib [hive@h1 work]$ cd join/ [hive@h1 join]$ ls bigd... 阅读全文
摘要:
ubuntu 14.04以后不支持 /etc/init.d/networing restart命令,使用ifdown et0 和ifup eth0 使用echo $?查看上一次命令执行的结果 ifdown --exclude=lo -a && sudo ifup --exclude=lo -a 关闭或者启动除了lo之外所有的网卡 sudo service network-manager... 阅读全文
摘要:
Talend将设计的模型直接生成了java代码,可以直接对模型生成的java代码进行调试,排查问题比kettle灵活很多, 设计的模型如下: 生成的代码如下: 点击 Java Debug进入调试模式,可以设置断点,单步跟进,和eclipse一模一样的调试,非常方便: 阅读全文