2016年3月24日

hadoop复合键排序使用方法

摘要: 在hadoop中处理复杂业务时,需要用到复合键,复合不同于单纯的继承Writable接口,而是继承了 WritableComparable<T>接口,而实际上,WritableComparable<T>接口继承了 Writable和Comparable<T>接口,如果只需要使用某一个类作为传值对象而 阅读全文

posted @ 2016-03-24 16:44 菜鸟老三 阅读(346) 评论(0) 推荐(0) 编辑

向HDFS中追加内容

摘要: 向生成好的hdfs文件中追加内容,但是线上使用的版本是1.0.3,查看官方文档发现,在1.0.4版本以后才支持文件append 以下是向hdfs中追加信息的操作方法 如果你只在某一个driver中追加内容信息,不必要对于整个HDFS都开启内容追加: 在某个方法中,追加文件信息: 使用以上方法,便可以 阅读全文

posted @ 2016-03-24 16:37 菜鸟老三 阅读(4205) 评论(0) 推荐(0) 编辑

Hadoop(二)自定义输出

摘要: Hadoop提供了较为丰富的数据输入输出格式,可以满足很多的设计实现,但是在某些时候需要自定义输入输出格式。 数据的输入格式用于描述MapReduce作业的数据输入规范,MapReduce框架依靠 数据输入格式完后输入规范检查(比如输入文件目录的检查),对数据文件进行输入分块(InputSpilt) 阅读全文

posted @ 2016-03-24 16:34 菜鸟老三 阅读(438) 评论(0) 推荐(0) 编辑

hadoop多文件输出

摘要: 现实环境中,常常遇到一个问题就是想使用多个Reduce,但是迫于setup和cleanup在每一个Reduce中会调用一次,只能设置一个Reduce,无法是实现负载均衡。 问题,如果要在reduce中输出两种文件,一种是标志,另一种是正常业务数据,实现方案有三种: (1)设置一个reduce,在re 阅读全文

posted @ 2016-03-24 16:28 菜鸟老三 阅读(3231) 评论(0) 推荐(0) 编辑

hadoop文件IO

摘要: } 参考文献:http://blog.csdn.net/waldmer/article/details/13503867 阅读全文

posted @ 2016-03-24 15:58 菜鸟老三 阅读(212) 评论(0) 推荐(0) 编辑

Flume Spooldir 源的一些问题

摘要: 来自:http://blog.xlvector.net/2014-01/flume-spooldir-source-problem/ ( 自己写的插件,数据序列化,格式化抛出的异常都会导致flume停止,不能继续取数据,异常可以自己处理 ) 最近在用Flume做数据的收集。用到了里面的Spooldi 阅读全文

posted @ 2016-03-24 14:47 菜鸟老三 阅读(453) 评论(0) 推荐(0) 编辑

把Flume的Source设置为 Spooling directory source

摘要: 把Flume的Source设置为 Spooling directory source,在设定的目录下放置需要读取的文件,一些文件在读取过程中会报错。 文件格式和报错如下: 实验一 读取汉子和“;"符号的TXT文档 会报一下错误 实验二 读取数字和”;“符号的TXT文档 报错 此报错与前面的报错相同。 阅读全文

posted @ 2016-03-24 14:26 菜鸟老三 阅读(8647) 评论(0) 推荐(0) 编辑

导航