Storm入门教程系列集锦

Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。而且支持水平扩展,具有高容错性,保证每个消息都会得到处理。Storm 的部署和运维都很便捷,更为重要的是可以使用任意编程语言来开发应用。本专题将量子恒道官方博客发布的Storm入门教程内容整理出来,供大家查阅参考。
Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开发应用。本教程是一本对storm的基础介绍手册,希望帮助所有愿意使用实时流处理框架的技术同仁。
Storm 集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs,而在Storm上运行的是拓扑(topology),这两者之间是非常不一样的。Topology的定义是一个Thrift结构,并且 Nimbus就是一个Thrift服务, 你可以提交由任何语言创建的topology。
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。详解了Storm安装部署步骤,希望能给您带来帮助。
storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。
Storm 是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的 tuple只被处理一次呢?Storm提供了一套事务性组件Transaction Topology,用来解决这个问题。
posted @ 2013-12-15 12:13  孤火  阅读(489)  评论(0编辑  收藏  举报