02 2014 档案

摘要:本文主要讲述如何利用hortonworks sanbox来搭建hadoop2的学习环境。Hortonworks sanbox集成了hadoop2及其上的一些常用工具如hive, pig等。 阅读全文
posted @ 2014-02-20 12:25 徽沪一郎 阅读(6712) 评论(1) 推荐(0) 编辑
摘要:或许谈起storm是大数据实时计算框架已经让你不明觉厉,如果说storm还可以跟机器学习算法(ml)有机的结合在一起,是不是更加觉着高大尚呢。trident-ml就是一个这样让人无限遐想的产品。 阅读全文
posted @ 2014-02-14 20:54 徽沪一郎 阅读(1505) 评论(0) 推荐(0) 编辑
摘要:storm是一个近似于实时的计算框架,甩开hadoop上的原生mapreduce计算框架不只一条街。如果能将storm引入到hadoop中,对存储于hdfs的数据进行分析必然极大的提高处理性能。storm-yarn就是这样一个项目,由yahoo实现,目前已经开源。 阅读全文
posted @ 2014-02-12 16:51 徽沪一郎 阅读(2008) 评论(5) 推荐(0) 编辑
摘要:从用户层面来看TridentTopology,有两个重要的概念一是Stream,另一个是作用于Stream上的各种Operation。在实现层面来看,无论是stream,还是后续的operation都会转变成为各个Node,这些Node之间的关系通过重要的数据结构图来维护。具体到TridentTopology,实现图的各种操作的组件是jgrapht。 说到图,两个基本的概念会闪现出来,一是结点,二是描述结点之间关系的边。要想很好的理解TridentTopology就需要紧盯图中结点和边的变化。 TridentTopology在转换成为普通的StormTopology时,需要将原始的图分成各个group,每个group将运行于一个独立的bolt中。TridentTopology又是如何知道哪些node应该在同一个group,哪些应该处在另一个group中的呢;如何来确定每个group的并发度(parallismHint)的呢。这些问题的解决都与jgrapht分不开。 阅读全文
posted @ 2014-02-09 14:03 徽沪一郎 阅读(2179) 评论(0) 推荐(3) 编辑