会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
玖疯
本来名字要写“疚疯”的,结果一不小心成“玖疯”了。。。
博客园
首页
新随笔
联系
管理
订阅
2015年12月21日
八大常见内排序java实现
摘要: 虽然排序算法烂大街了,但是哥依然用java实现了一遍,只为自己练练手,后面可以时不时的回头看看。。。仅此而已,各位可以提意见,莫喷!!一、冒泡排序 基本思想:在要排序的一组数中,对当前还未排好序的范围内的全部数,自上而下对相邻的两个数依次进行比较和调整,让较大的数往下沉,较小的往上冒。即:每当...
阅读全文
posted @ 2015-12-21 17:20 玖疯
阅读(5700)
评论(1)
推荐(1)
2015年11月29日
一张图解释Hadoop IPC
摘要: 基于hadoop2.6.2。。。。一张图Server启动,Client访问。。。。。RPC是IPC的一种,IPC还有另外一种LPC,相关请看参考中的3使用hadoop ipc步骤: 1.定义RPC协议 2.实现RPC协议 3.构造和启动RPC SERVER 4.构造RPC Client并发送...
阅读全文
posted @ 2015-11-29 17:49 玖疯
阅读(2196)
评论(2)
推荐(3)
2015年3月1日
Flume-NG之KafkaChannel
摘要: apache下一个版本(1.6)将会带来一个新的组件KafKaChannel,顾名思义就是使用kafka做channel,当然在CDH5.3版本已经存在这个channel。 大伙知道,常用的channel主要有三个: 1、memory channel:用内存做channel,优点是速度最快,...
阅读全文
posted @ 2015-03-01 18:40 玖疯
阅读(7593)
评论(2)
推荐(1)
2014年12月28日
Hadoop源码之Configuration
摘要: 本文hadoop版本为最新版本2.6。Configuration做为Hadoop的一个基础功能承担着重要的责任,为Yarn、HSFS、MapReduce、NFS、调度器等提供参数的配置、配置文件的分布式传输(实现了Writable接口)等重要功能。 Hadoop的加载配置文件的功能没有采用Ja...
阅读全文
posted @ 2014-12-28 15:00 玖疯
阅读(5204)
评论(0)
推荐(0)
2014年12月11日
shell脚本监控Flume输出到HDFS上文件合法性
摘要: 在使用flume中发现由于网络、HDFS等其它原因,使得经过Flume收集到HDFS上得日志有一些异常,表现为:1、有未关闭的文件:以tmp(默认)结尾的文件。加入存到HDFS上得文件应该是gz压缩文件,以tmp为结尾的文件就无法使用;2、有大小为0的文件,比如gz压缩文件大小为0,我们单独拿下这个...
阅读全文
posted @ 2014-12-11 12:11 玖疯
阅读(2064)
评论(2)
推荐(0)
2014年11月23日
Hadoop Streaming例子(python)
摘要: 以前总是用java写一些MapReduce程序现举一个例子使用Python通过Hadoop Streaming来实现Mapreduce。 任务描述: HDFS上有两个目录/a和/b,里面数据均有3列,第一列都是id,第二列是各自的业务类型(这里假设/a对应a,/b对应b),第三列是一个jso...
阅读全文
posted @ 2014-11-23 12:45 玖疯
阅读(2652)
评论(0)
推荐(0)
2014年10月10日
修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能
摘要: Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀。 在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间。如果你不需要配...
阅读全文
posted @ 2014-10-10 09:10 玖疯
阅读(5112)
评论(9)
推荐(2)
2014年10月9日
记Flume-NG一些注意事项(不定时更新,欢迎提供信息)
摘要: 这里只考虑flume本身的一些东西,对于JVM、HDFS、HBase等得暂不涉及。。。。一、关于Source: 1、spool-source:适合静态文件,即文件本身不是动态变化的; 2、avro source可以适当提高线程数量来提高此source性能; 3、ThriftSource在使用时...
阅读全文
posted @ 2014-10-09 17:25 玖疯
阅读(13462)
评论(5)
推荐(6)
2014年7月24日
Spark Streaming和Flume-NG对接实验
摘要: Spark Streaming是一个新的实时计算的利器,而且还在快速的发展。它将输入流切分成一个个的DStream转换为RDD,从而可以使用Spark来处理。它直接支持多种数据源:Kafka, Flume, Twitter, ZeroMQ , TCP sockets等,有一些可以操作的函数:ma...
阅读全文
posted @ 2014-07-24 19:26 玖疯
阅读(6824)
评论(2)
推荐(1)
2014年7月15日
Flume-NG内置计数器(监控)源码级分析
摘要: Flume的内置监控怎么整?这个问题有很多人问。目前了解到的信息是可以使用Cloudera Manager、Ganglia有图形的监控工具,以及从浏览器获取json串,或者自定义向其他监控系统汇报信息。那监控的信息是什么呢?就是各个组件的统计信息,比如成功接收的Event数量、成功发送的Even...
阅读全文
posted @ 2014-07-15 22:11 玖疯
阅读(5207)
评论(0)
推荐(2)
2014年7月4日
Flume-NG(1.5版本)中SpillableMemoryChannel源码级分析
摘要: SpillableMemoryChannel是1.5版本新增的一个channel。这个channel优先将evnet放在内存中,一旦内存达到设定的容量就使用file channel写入磁盘。然后读的时候会按照顺序读取:会通过一个DrainOrderQueue来保证不管是内存中的还是溢出(本文的“...
阅读全文
posted @ 2014-07-04 23:04 玖疯
阅读(2904)
评论(1)
推荐(1)
2014年7月2日
Spark-1.0.0 standalone分布式安装教程
摘要: Spark目前支持多种分布式部署方式:一、Standalone Deploy Mode;二Amazon EC2、;三、Apache Mesos;四、Hadoop YARN。第一种方式是单独部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。 除了部署的多种方式之...
阅读全文
posted @ 2014-07-02 09:20 玖疯
阅读(3126)
评论(0)
推荐(0)
2014年6月28日
TableInputFormat分片及分片数据读取源码级分析
摘要: 我们在MapReduce中TextInputFormat分片和读取分片数据源码级分析 这篇中以TextInputFormat为例讲解了InputFormat的分片过程以及RecordReader读取分片数据的过程。接下来咱们分析TableInputFormat的分片信息和数据读取过程。 Tab...
阅读全文
posted @ 2014-06-28 12:59 玖疯
阅读(5428)
评论(0)
推荐(1)
2014年6月27日
MapReduce中TextInputFormat分片和读取分片数据源码级分析
摘要: InputFormat主要用于描述输入数据的格式(我们只分析新API,即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能: (1)数据切分:按照某个策略将输入数据切分成若干个split,以便确定MapTask个数以及对应的s...
阅读全文
posted @ 2014-06-27 18:27 玖疯
阅读(4989)
评论(1)
推荐(1)
2014年6月21日
Flume-NG中Transaction并发性探究
摘要: 我们曾经在Flume-NG中的Channel与Transaction关系(原创)这篇文章中说了channel和Transaction的关系,但是在source和sink中都会使用Transaction,那么Transaction的并发性如何? Transaction是介于channel和sou...
阅读全文
posted @ 2014-06-21 16:01 玖疯
阅读(1900)
评论(2)
推荐(0)
下一页
公告