摘要:
概述 主要分析flink streaming流程中,group window的设计和实现。 一、功能设计 group window主要实现功能如下: 其中w:window格式定义为(选取tumbling window): 二、源码分析 2.1 group window对象定义 groupWindow 阅读全文
2016年11月22日
2015年12月1日
摘要:
compaction有两种类型:major compactioin和minor compaction. major compaction的时候将region中所有的小文件合并成一个大文件,minor compaction时,将小文件合并成若干个大文件。major compaction的好处:1.可以... 阅读全文
2015年9月25日
摘要:
准备:1.源码下载,版本hadoop-2.2.0svn co https://svn.apache.org/repos/asf/hadoop/common/tags/release-2.2.0/由于Hadoop本地库只支持*nix平台,已经广泛使用在GNU/Linux平台上,但是不支持 Cygwin... 阅读全文
2015年9月12日
摘要:
当下hadoop和其他NoSQL数据库为什么如此流行的一个原因是他们采用的是schema on read策略,而非传统关系型数据库的schema on write。传统的数据库严格要求数据的schema。数据的列数,每列的字段类型在创建开始都严格规定,因此,你需要时刻按照数据的格式来存储。Hive和... 阅读全文
2015年3月24日
摘要:
生产者消费者模型是多线程中经常遇到的编程模型。java中可以通过wait notify notifyAll来实现生产者消费者模型,但是并发程序的正确编写需要遵守一些准则,否则程序便会出现各种问题,如下一种错误实现:Consume.java:public class Consume implement... 阅读全文
2014年12月13日
摘要:
linux中可以安装tree插件生成目录树,方便了解文件的位置。如下图所示对于如何列出Hdfs的目录树,自带的hadoop并没有提供,解决的方法可以将hdfs文件系统mount到本地文件系统再使用tree命令。这里自己实现了一个生成目录树的小程序,结果如下,另存为查看大图实现代码:/** * Cre... 阅读全文
2014年11月17日
摘要:
在阅读代码量比较多的项目时,类的继承树和函数调用图能够直观地向我们显示类之间或者函数之间的各种关系,方便我们了解程序的整体框架,很多时候可以起到事半功倍的作用。这里尝试了用doxygen+graphviz生成工程中的类继承树和函数调用图的方法,总体来说操作比较方便。网上还有其他一些方法,比如ecli... 阅读全文
2014年11月6日
摘要:
每次都要手动到各台机子启动Storm集群,网上找了下好像没有类似hadoop start-all的脚本,还是自己写个。。这里涉及shell远程执行,如果没有配置ssh免密码登陆,要用到expect自动交互脚本,使用方法可以参考这里。如果配置了ssh免密码登陆,ssh远程方法可以参考这里。停止:先说停... 阅读全文
2014年9月28日
摘要:
之前都是通过vsftp来互传windows和linux之间的文件,搞来搞去还是有些麻烦。最好的方法就是用samba构建网络文件系统,将linux文件系统的目录直接映射到windows系统。具体步骤参考下面两篇文章:1.http://www.cnblogs.com/mchina/archive/201... 阅读全文
2014年6月2日
摘要:
当程序的要求达到一台计算机的极限时,我们便需要将程序分布式化,让程序运行在多台计算机上。akka提供了remote actor用来构建分布式应用。一、remote actor1.Actor path actor的路径设计采用了类似URL的形式,即scheme://domain:port/path。... 阅读全文