随笔分类 -  大数据

摘要:在分析caffe2源码的过程中,由于caffe2使用protobuf作为网络结构和网络参数序列化和反序列化的机制,想在反序列化之前进行加解密处理,这是反向protouf其实有两个版本的实现来进行消息的解析。 protobuf 中对消息的解析有两个版本,一个是python版本,另外一个是c++版本。python版本相关的代码存放路径在:./python/google/protobu... 阅读全文
posted @ 2018-05-29 11:30 justinzhang 阅读(1151) 评论(0) 推荐(0) 编辑
摘要:1. 搭建一个测试集群,集群有4台机器,配置集群中每一台机器的/etc/hosts文件: [root@nn .ssh]# cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain ... 阅读全文
posted @ 2015-10-27 15:36 justinzhang 阅读(2237) 评论(0) 推荐(1) 编辑
摘要:[root@hdp159 ambari-web]# brunch watch --server 20 Oct 10:22:43 - info: application started on http://localhost:3333/ 20 Oct 10:22:47 - info: compiled 891 files into 5 files, copied 260 in 3988ms ... 阅读全文
posted @ 2015-10-20 11:22 justinzhang 阅读(2463) 评论(0) 推荐(0) 编辑
摘要:使用talend连接一个mysql数据库,提示没有权限,最后发现mysql服务器的配置中只监听了127.0.0.1的端口,拒绝非本地的请求。通过将/etc/mysql/my.cnf中的bind_address项注释掉,/etc/init.d/mysql restart重启mysql服务器后,talend可以正常的访问该数据库: root@ubuntu:~/extract/extract_mysq... 阅读全文
posted @ 2015-09-09 16:12 justinzhang 阅读(1018) 评论(0) 推荐(0) 编辑
摘要:hive的元数据存放在关系型数据库中,元数据中存储了hive中所有表格的信息,包括表格的名字,表格的字段,字段的类型,注释。这些信息分散的存放在各个表中,给定一个hive中的表格名字,查询这个表中含有的所有字段,使用如下的SQL语句: mysql> select COLUMNS_V2.* from COLUMNS_V2,SDS, TBLS where COLUMNS_V2.CD_ID = SDS... 阅读全文
posted @ 2015-09-09 10:06 justinzhang 阅读(1891) 评论(0) 推荐(0) 编辑
摘要:hive> create table arrays (x array) > row format delimited fields terminated by '\001' > collection items terminated by '\002' > ; OK Time taken: 0.574 seconds hive> show tables; OK array... 阅读全文
posted @ 2015-09-06 14:43 justinzhang 阅读(3363) 评论(0) 推荐(0) 编辑
摘要:FAILURE: Build failed with an exception. * What went wrong: Could not resolve all dependencies for configuration ':databus2-relay:databus2-event-producer-mock:compile'. > Artifact 'com.oracle:ojdbc6... 阅读全文
posted @ 2015-09-02 15:31 justinzhang 阅读(1346) 评论(0) 推荐(0) 编辑
摘要:在编译databus的过程中,出现了无法找到jdk的错误: 在/etc/.bashrc和/etc/profile中都配置了JAVA_HOME,依然报错,重启后还是报错,原因的是ubuntu中默认的jdk位置是:/usr/lib/jvm/defualt-java,先将符号连接删除掉,然后重新定位到/home/zhangchao/jdk1.6.0_45目录下,gradle的错误消失: 阅读全文
posted @ 2015-09-02 15:19 justinzhang 阅读(595) 评论(0) 推荐(0) 编辑
摘要:这个是Ralph kimball ETL的书籍,其中第10章主要讲如何管理数据仓库团队,ETL团队是属于数据仓库团队的;第一章和第二章是概况性的介绍,强烈建议大家都看下1/2/10章,对于大家形成对数据仓库和ETL共同的认识。 下面和大家分享下一些观点,英文的都是从Ralph kimball的书里面摘抄下来的,大家可以到书中对应章节看更详细的介绍,中文截图来自互联网。希望对大家形成... 阅读全文
posted @ 2015-08-13 14:43 justinzhang 阅读(952) 评论(0) 推荐(0) 编辑
摘要:创建一个topic: [root@hdp1 bin]# ./kafka-topics.sh --create --zookeeper hdp1:2181 --replication-factor 1 --partitions 1 --topic justin Created topic "justin". [root@hdp1 bin]# pwd /usr/hdp/2.2.6.0-2800/k... 阅读全文
posted @ 2015-07-15 10:23 justinzhang 阅读(1689) 评论(0) 推荐(0) 编辑
摘要:首先,解决talend连接hbase的问题: 公司使用的机器是HDP2.2的机器,上面配置好Hbase服务,在集群的/etc/hbase/conf/hbase-site.xml下,有如下配置: zookeeper.znode.parent /hbase-unsecure 这个配置是决定, Hbase master在zookeeper中,存储数据的根节点,如果不... 阅读全文
posted @ 2015-07-14 15:48 justinzhang 阅读(4626) 评论(1) 推荐(0) 编辑
摘要:hbase(main):036:0> get 'ddl', 'example', 'info:age'COLUMN CELL info:age timestamp=1436787562408, value=\x00\x00... 阅读全文
posted @ 2015-07-13 19:58 justinzhang 阅读(4168) 评论(1) 推荐(0) 编辑
摘要:名称命令表达式 创建表create '表名称','列簇名称1','列簇名称2'....... 添加记录put '表名称', '行名称','列簇名称:','值' 查看记录get '表名称','行名称' 查看表中的记录总数count '表名称' 删除记录delete '表名',行名称','列簇名称' 删除表①disable '表名称' ②drop '表名称' 查看所有记 阅读全文
posted @ 2015-07-13 19:55 justinzhang 阅读(850) 评论(0) 推荐(0) 编辑
摘要:首先,概览下任务图: 流程是,先用tHDFSDelete将hdfs上的文件删除掉,然后将oracle中的机构表中的数据导入到HDFS中;建立hive连接-》hive建表-》tJava获取系统时间-》tHiveLoad将hdfs上的文件导入到hive表中。 下面介绍每一个组件的设置: tHDFSDelete_1: 机构: tHDFSOutput_1: hive: tHiveCreateT... 阅读全文
posted @ 2015-07-01 09:38 justinzhang 阅读(3810) 评论(1) 推荐(0) 编辑
摘要:thiveInput->tmap->tMysqloutput thiveInput: tmap: tmysqlOutput:注意编码问题:noDatetimeStringSync=true&useUnicode=true&characterEncoding=UTF-8 阅读全文
posted @ 2015-06-29 16:58 justinzhang 阅读(674) 评论(1) 推荐(0) 编辑
摘要:先使用Tos建立模型,将Oracle中的数据导入到本地: build job后,形成独立可以运行的程序: 将生成的zip文件,上传到hadoop集群上,有hive环境的机器上: [hive@h1 work]$ ls file.zip jobInfo.properties join lib [hive@h1 work]$ cd join/ [hive@h1 join]$ ls bigd... 阅读全文
posted @ 2015-06-29 13:52 justinzhang 阅读(5128) 评论(0) 推荐(0) 编辑
摘要:Talend将设计的模型直接生成了java代码,可以直接对模型生成的java代码进行调试,排查问题比kettle灵活很多, 设计的模型如下: 生成的代码如下: 点击 Java Debug进入调试模式,可以设置断点,单步跟进,和eclipse一模一样的调试,非常方便: 阅读全文
posted @ 2015-06-15 18:48 justinzhang 阅读(916) 评论(0) 推荐(0) 编辑
摘要:使用Talend open studio ,从mysql数据源中读取数据,将数据导出到excel文档,另外一个mysql数据库,和一个普通文件,遇到标题的错误,模型如下图所示: tMap将30.7中的每一个字段都要输出到excel字段中,如下图所示: 但是其中有两个字段,update_time和last_msg_intime为date类型,到了excel中,应该设置为... 阅读全文
posted @ 2015-06-15 18:40 justinzhang 阅读(439) 评论(0) 推荐(0) 编辑
摘要:1 开源数据汇集工具 1.1 Talend Open Studio Talend Open Studio 是一个 ETL (Extract, Transform, and Load) 工具,可执行数据仓库到数据库之间的数据同步,提供基于 Eclipse RCP 的图形操作界面。 项目源码:http://talendforge.org/trac/tos 项目主页: http://www.talen... 阅读全文
posted @ 2015-06-10 11:39 justinzhang 阅读(7921) 评论(0) 推荐(0) 编辑
摘要:1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种Key/V... 阅读全文
posted @ 2015-02-04 22:39 justinzhang 阅读(199156) 评论(9) 推荐(9) 编辑