上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 20 下一页
摘要: 这个是Ralph kimball ETL的书籍,其中第10章主要讲如何管理数据仓库团队,ETL团队是属于数据仓库团队的;第一章和第二章是概况性的介绍,强烈建议大家都看下1/2/10章,对于大家形成对数据仓库和ETL共同的认识。 下面和大家分享下一些观点,英文的都是从Ralph kimball的书里面摘抄下来的,大家可以到书中对应章节看更详细的介绍,中文截图来自互联网。希望对大家形成... 阅读全文
posted @ 2015-08-13 14:43 justinzhang 阅读(952) 评论(0) 推荐(0) 编辑
摘要: 创建一个topic: [root@hdp1 bin]# ./kafka-topics.sh --create --zookeeper hdp1:2181 --replication-factor 1 --partitions 1 --topic justin Created topic "justin". [root@hdp1 bin]# pwd /usr/hdp/2.2.6.0-2800/k... 阅读全文
posted @ 2015-07-15 10:23 justinzhang 阅读(1689) 评论(0) 推荐(0) 编辑
摘要: 首先,解决talend连接hbase的问题: 公司使用的机器是HDP2.2的机器,上面配置好Hbase服务,在集群的/etc/hbase/conf/hbase-site.xml下,有如下配置: zookeeper.znode.parent /hbase-unsecure 这个配置是决定, Hbase master在zookeeper中,存储数据的根节点,如果不... 阅读全文
posted @ 2015-07-14 15:48 justinzhang 阅读(4625) 评论(1) 推荐(0) 编辑
摘要: hbase(main):036:0> get 'ddl', 'example', 'info:age'COLUMN CELL info:age timestamp=1436787562408, value=\x00\x00... 阅读全文
posted @ 2015-07-13 19:58 justinzhang 阅读(4168) 评论(1) 推荐(0) 编辑
摘要: 名称命令表达式 创建表create '表名称','列簇名称1','列簇名称2'....... 添加记录put '表名称', '行名称','列簇名称:','值' 查看记录get '表名称','行名称' 查看表中的记录总数count '表名称' 删除记录delete '表名',行名称','列簇名称' 删除表①disable '表名称' ②drop '表名称' 查看所有记 阅读全文
posted @ 2015-07-13 19:55 justinzhang 阅读(850) 评论(0) 推荐(0) 编辑
摘要: 首先,概览下任务图: 流程是,先用tHDFSDelete将hdfs上的文件删除掉,然后将oracle中的机构表中的数据导入到HDFS中;建立hive连接-》hive建表-》tJava获取系统时间-》tHiveLoad将hdfs上的文件导入到hive表中。 下面介绍每一个组件的设置: tHDFSDelete_1: 机构: tHDFSOutput_1: hive: tHiveCreateT... 阅读全文
posted @ 2015-07-01 09:38 justinzhang 阅读(3810) 评论(1) 推荐(0) 编辑
摘要: thiveInput->tmap->tMysqloutput thiveInput: tmap: tmysqlOutput:注意编码问题:noDatetimeStringSync=true&useUnicode=true&characterEncoding=UTF-8 阅读全文
posted @ 2015-06-29 16:58 justinzhang 阅读(674) 评论(1) 推荐(0) 编辑
摘要: 先使用Tos建立模型,将Oracle中的数据导入到本地: build job后,形成独立可以运行的程序: 将生成的zip文件,上传到hadoop集群上,有hive环境的机器上: [hive@h1 work]$ ls file.zip jobInfo.properties join lib [hive@h1 work]$ cd join/ [hive@h1 join]$ ls bigd... 阅读全文
posted @ 2015-06-29 13:52 justinzhang 阅读(5128) 评论(0) 推荐(0) 编辑
摘要: ubuntu 14.04以后不支持 /etc/init.d/networing restart命令,使用ifdown et0 和ifup eth0 使用echo $?查看上一次命令执行的结果 ifdown --exclude=lo -a && sudo ifup --exclude=lo -a 关闭或者启动除了lo之外所有的网卡 sudo service network-manager... 阅读全文
posted @ 2015-06-19 15:03 justinzhang 阅读(923) 评论(0) 推荐(0) 编辑
摘要: Talend将设计的模型直接生成了java代码,可以直接对模型生成的java代码进行调试,排查问题比kettle灵活很多, 设计的模型如下: 生成的代码如下: 点击 Java Debug进入调试模式,可以设置断点,单步跟进,和eclipse一模一样的调试,非常方便: 阅读全文
posted @ 2015-06-15 18:48 justinzhang 阅读(915) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 20 下一页