摘要: 例如: PS:下面的代码已经测试通过,木有问题。 http://hugh-wangp.iteye.com/blog/1405804 基于HIVE文件格式的map reduce代码编写http://smallboby.iteye.com/blog/1596776 普通文本压缩成RcFile的通用类ht 阅读全文
posted @ 2016-12-02 11:20 Syn良子 阅读(1450) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 找时间记录一下利用Gobblin采集kafka数据的过程,话不多说,进入正题 一.Gobblin环境变量准备 需要配置好Gobblin0.7.0工作时对应的环境变量,可以去Gobblin的bin目 阅读全文
posted @ 2016-12-01 18:38 Syn良子 阅读(7571) 评论(27) 推荐(0) 编辑
摘要: http://colobu.com/2015/01/14/Scala-Quick-Start-for-Java-Programmers/ 阅读全文
posted @ 2016-11-29 10:16 Syn良子 阅读(913) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 Gobblin的前身是linkedin的Camus,好多人也用过,准备用Gobblin的方式来抽取数据,不过由于连接的集群是CDH的,而Gobblin默认支持的是hadoop2.3.0,因此需要手 阅读全文
posted @ 2016-11-23 18:11 Syn良子 阅读(1590) 评论(6) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下 Confluent的Kafka Connect旨在通过标准化如何将数据移入和移出Kafka来简化构建大规模实时数据管道的过 阅读全文
posted @ 2016-11-18 13:01 Syn良子 阅读(12214) 评论(5) 推荐(2) 编辑
摘要: 一般导致NameNode切换的原因 ZKFC的作用是什么?如何判断一个NN是否健康 NameNode HA是如何实现的? NameNode因为断电导致不能切换的原理,怎样进行恢复 阅读全文
posted @ 2016-11-09 11:52 Syn良子 阅读(2309) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载,转载请注明出处. 一.配置MapReduce Maven工程 新建一个Maven工程,将CDH集群的相关xml配置文件(主要是core-site.xml,hdfs-site.xml,mapred-sit 阅读全文
posted @ 2016-11-04 18:10 Syn良子 阅读(1486) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载 抽空用kettle配置了一个Mapreduce的Word count,发现还是很方便快捷的,废话不多说,进入正题.一.创建Mapper转换 如下图,mapper读取hdfs输入,进行word的切分,输出 阅读全文
posted @ 2016-11-02 17:57 Syn良子 阅读(1894) 评论(0) 推荐(0) 编辑
摘要: 转载自:http://zengzhaozheng.blog.51cto.com/8219051/1392961 1、在Reudce端进行连接。 在Reudce端进行连接是MapReduce框架进行表之间join操作最为常见的模式,其具体的实现原理如下: Map端的主要工作:为来自不同表(文件)的ke 阅读全文
posted @ 2016-11-01 11:55 Syn良子 阅读(988) 评论(0) 推荐(0) 编辑
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载 最近把之前写的Hadoop MapReduce程序又总结了下,发现很多逻辑基本都是大致相同的,于是想到能不能利用ETL工具来进行配置相关逻辑来实现MapReduce代码自动生成并执行,这样可以简化现有以 阅读全文
posted @ 2016-10-27 18:41 Syn良子 阅读(6228) 评论(5) 推荐(1) 编辑