2016 年 3月 24 日随笔档案 - 菜鸟老三

hadoop复合键排序使用方法

摘要：在hadoop中处理复杂业务时，需要用到复合键，复合不同于单纯的继承Writable接口，而是继承了 WritableComparable<T>接口，而实际上，WritableComparable<T>接口继承了 Writable和Comparable<T>接口，如果只需要使用某一个类作为传值对象而阅读全文

posted @ 2016-03-24 16:44 菜鸟老三阅读(346) 评论(0) 推荐(0) 编辑

向HDFS中追加内容

摘要：向生成好的hdfs文件中追加内容，但是线上使用的版本是1.0.3，查看官方文档发现，在1.0.4版本以后才支持文件append 以下是向hdfs中追加信息的操作方法如果你只在某一个driver中追加内容信息，不必要对于整个HDFS都开启内容追加：在某个方法中，追加文件信息：使用以上方法，便可以阅读全文

posted @ 2016-03-24 16:37 菜鸟老三阅读(4205) 评论(0) 推荐(0) 编辑

Hadoop（二）自定义输出

摘要： Hadoop提供了较为丰富的数据输入输出格式，可以满足很多的设计实现，但是在某些时候需要自定义输入输出格式。数据的输入格式用于描述MapReduce作业的数据输入规范，MapReduce框架依靠数据输入格式完后输入规范检查（比如输入文件目录的检查），对数据文件进行输入分块（InputSpilt）阅读全文

posted @ 2016-03-24 16:34 菜鸟老三阅读(438) 评论(0) 推荐(0) 编辑

hadoop多文件输出

摘要：现实环境中，常常遇到一个问题就是想使用多个Reduce，但是迫于setup和cleanup在每一个Reduce中会调用一次，只能设置一个Reduce，无法是实现负载均衡。问题，如果要在reduce中输出两种文件，一种是标志，另一种是正常业务数据，实现方案有三种：（1）设置一个reduce，在re 阅读全文

posted @ 2016-03-24 16:28 菜鸟老三阅读(3231) 评论(0) 推荐(0) 编辑

hadoop文件IO

摘要： } 参考文献：http://blog.csdn.net/waldmer/article/details/13503867 阅读全文

posted @ 2016-03-24 15:58 菜鸟老三阅读(212) 评论(0) 推荐(0) 编辑

Flume Spooldir 源的一些问题

摘要：来自：http://blog.xlvector.net/2014-01/flume-spooldir-source-problem/ （自己写的插件，数据序列化，格式化抛出的异常都会导致flume停止，不能继续取数据，异常可以自己处理）最近在用Flume做数据的收集。用到了里面的Spooldi 阅读全文

posted @ 2016-03-24 14:47 菜鸟老三阅读(453) 评论(0) 推荐(0) 编辑

把Flume的Source设置为 Spooling directory source

摘要：把Flume的Source设置为 Spooling directory source，在设定的目录下放置需要读取的文件，一些文件在读取过程中会报错。文件格式和报错如下：实验一读取汉子和“；"符号的TXT文档会报一下错误实验二读取数字和”；“符号的TXT文档报错此报错与前面的报错相同。阅读全文

posted @ 2016-03-24 14:26 菜鸟老三阅读(8647) 评论(0) 推荐(0) 编辑