玖疯 - 博客园

2015年12月21日

摘要：虽然排序算法烂大街了，但是哥依然用java实现了一遍，只为自己练练手，后面可以时不时的回头看看。。。仅此而已，各位可以提意见，莫喷！！一、冒泡排序基本思想：在要排序的一组数中，对当前还未排好序的范围内的全部数，自上而下对相邻的两个数依次进行比较和调整，让较大的数往下沉，较小的往上冒。即：每当... 阅读全文

posted @ 2015-12-21 17:20 玖疯阅读(5700) 评论(1) 推荐(1)

2015年11月29日

一张图解释Hadoop IPC

摘要：基于hadoop2.6.2。。。。一张图Server启动，Client访问。。。。。RPC是IPC的一种，IPC还有另外一种LPC，相关请看参考中的3使用hadoop ipc步骤： 1.定义RPC协议 2.实现RPC协议 3.构造和启动RPC SERVER 4.构造RPC Client并发送... 阅读全文

posted @ 2015-11-29 17:49 玖疯阅读(2196) 评论(2) 推荐(3)

2015年3月1日

Flume-NG之KafkaChannel

摘要： apache下一个版本(1.6)将会带来一个新的组件KafKaChannel，顾名思义就是使用kafka做channel，当然在CDH5.3版本已经存在这个channel。大伙知道，常用的channel主要有三个： 1、memory channel：用内存做channel，优点是速度最快，... 阅读全文

posted @ 2015-03-01 18:40 玖疯阅读(7593) 评论(2) 推荐(1)

2014年12月28日

Hadoop源码之Configuration

摘要：本文hadoop版本为最新版本2.6。Configuration做为Hadoop的一个基础功能承担着重要的责任，为Yarn、HSFS、MapReduce、NFS、调度器等提供参数的配置、配置文件的分布式传输(实现了Writable接口)等重要功能。 Hadoop的加载配置文件的功能没有采用Ja... 阅读全文

posted @ 2014-12-28 15:00 玖疯阅读(5204) 评论(0) 推荐(0)

2014年12月11日

shell脚本监控Flume输出到HDFS上文件合法性

摘要：在使用flume中发现由于网络、HDFS等其它原因，使得经过Flume收集到HDFS上得日志有一些异常，表现为：1、有未关闭的文件：以tmp(默认)结尾的文件。加入存到HDFS上得文件应该是gz压缩文件，以tmp为结尾的文件就无法使用；2、有大小为0的文件，比如gz压缩文件大小为0，我们单独拿下这个... 阅读全文

posted @ 2014-12-11 12:11 玖疯阅读(2064) 评论(2) 推荐(0)

2014年11月23日

Hadoop Streaming例子(python)

摘要：以前总是用java写一些MapReduce程序现举一个例子使用Python通过Hadoop Streaming来实现Mapreduce。任务描述： HDFS上有两个目录/a和/b，里面数据均有3列，第一列都是id，第二列是各自的业务类型(这里假设/a对应a，/b对应b)，第三列是一个jso... 阅读全文

posted @ 2014-11-23 12:45 玖疯阅读(2652) 评论(0) 推荐(0)

2014年10月10日

修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能

摘要： Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path"，不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀。在实际使用中发现Flume内置的基于正则的解析方式非常耗时，有非常大的提升空间。如果你不需要配... 阅读全文

posted @ 2014-10-10 09:10 玖疯阅读(5112) 评论(9) 推荐(2)

2014年10月9日

记Flume-NG一些注意事项(不定时更新，欢迎提供信息)

摘要：这里只考虑flume本身的一些东西，对于JVM、HDFS、HBase等得暂不涉及。。。。一、关于Source： 1、spool-source：适合静态文件，即文件本身不是动态变化的； 2、avro source可以适当提高线程数量来提高此source性能； 3、ThriftSource在使用时... 阅读全文

posted @ 2014-10-09 17:25 玖疯阅读(13462) 评论(5) 推荐(6)

2014年7月24日

Spark Streaming和Flume-NG对接实验

摘要： Spark Streaming是一个新的实时计算的利器，而且还在快速的发展。它将输入流切分成一个个的DStream转换为RDD，从而可以使用Spark来处理。它直接支持多种数据源：Kafka, Flume, Twitter, ZeroMQ , TCP sockets等，有一些可以操作的函数：ma... 阅读全文

posted @ 2014-07-24 19:26 玖疯阅读(6824) 评论(2) 推荐(1)

2014年7月15日

Flume-NG内置计数器(监控)源码级分析

摘要： Flume的内置监控怎么整？这个问题有很多人问。目前了解到的信息是可以使用Cloudera Manager、Ganglia有图形的监控工具，以及从浏览器获取json串，或者自定义向其他监控系统汇报信息。那监控的信息是什么呢？就是各个组件的统计信息，比如成功接收的Event数量、成功发送的Even... 阅读全文

posted @ 2014-07-15 22:11 玖疯阅读(5207) 评论(0) 推荐(2)

2014年7月4日

Flume-NG(1.5版本)中SpillableMemoryChannel源码级分析

摘要： SpillableMemoryChannel是1.5版本新增的一个channel。这个channel优先将evnet放在内存中，一旦内存达到设定的容量就使用file channel写入磁盘。然后读的时候会按照顺序读取：会通过一个DrainOrderQueue来保证不管是内存中的还是溢出(本文的“... 阅读全文

posted @ 2014-07-04 23:04 玖疯阅读(2904) 评论(1) 推荐(1)

2014年7月2日

Spark-1.0.0 standalone分布式安装教程

摘要： Spark目前支持多种分布式部署方式：一、Standalone Deploy Mode；二Amazon EC2、；三、Apache Mesos；四、Hadoop YARN。第一种方式是单独部署，不需要有依赖的资源管理器，其它三种都需要将spark部署到对应的资源管理器上。除了部署的多种方式之... 阅读全文

posted @ 2014-07-02 09:20 玖疯阅读(3126) 评论(0) 推荐(0)

2014年6月28日

TableInputFormat分片及分片数据读取源码级分析

摘要：我们在MapReduce中TextInputFormat分片和读取分片数据源码级分析这篇中以TextInputFormat为例讲解了InputFormat的分片过程以及RecordReader读取分片数据的过程。接下来咱们分析TableInputFormat的分片信息和数据读取过程。 Tab... 阅读全文

posted @ 2014-06-28 12:59 玖疯阅读(5428) 评论(0) 推荐(1)

2014年6月27日

MapReduce中TextInputFormat分片和读取分片数据源码级分析

摘要： InputFormat主要用于描述输入数据的格式(我们只分析新API，即org.apache.hadoop.mapreduce.lib.input.InputFormat)，提供以下两个功能： (1)数据切分：按照某个策略将输入数据切分成若干个split，以便确定MapTask个数以及对应的s... 阅读全文

posted @ 2014-06-27 18:27 玖疯阅读(4989) 评论(1) 推荐(1)

2014年6月21日

Flume-NG中Transaction并发性探究

摘要：我们曾经在Flume-NG中的Channel与Transaction关系(原创)这篇文章中说了channel和Transaction的关系，但是在source和sink中都会使用Transaction，那么Transaction的并发性如何？ Transaction是介于channel和sou... 阅读全文

posted @ 2014-06-21 16:01 玖疯阅读(1900) 评论(2) 推荐(0)

玖疯

本来名字要写“疚疯”的，结果一不小心成“玖疯”了。。。

公告