博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  分布式、大数据存储、大数据处理

摘要:——本文讲解了Storm故障容忍性(Fault-Tolerance)的设计细节:当Worker、节点、Nimbus或者Supervisor出现故障时是如何实现故障容忍性,以及Nimbus是否存在单点故障问题。当一个Worker挂了会怎样?When a worker dies, the supervi... 阅读全文

posted @ 2015-03-30 10:44 xymaqingxiang 阅读(824) 评论(0) 推荐(0) 编辑

摘要:【原】storm源码之storm代码结构【译】说明:本文翻译自Storm在GitHub上的官方Wiki中提供的Storm代码结构描述一节Structure of the codebase,希望对正在基于Storm进行源码级学习和研究的朋友有所帮助。Storm的源码共分为三个不同的层次。首先,Stor... 阅读全文

posted @ 2015-03-28 22:03 xymaqingxiang 阅读(283) 评论(0) 推荐(0) 编辑

摘要:本文导读:1 Worker、Executor、task详解2 配置拓扑的并发度3 拓扑示例4 动态配置拓扑并发度Worker、Executor、Task详解:Storm在集群上运行一个Topology时,主要通过以下3个实体来完成Topology的执行工作:1. Worker Process(工作进... 阅读全文

posted @ 2015-03-28 21:54 xymaqingxiang 阅读(4311) 评论(0) 推荐(1) 编辑

摘要:本文导读:1 storm nimbus 单节点问题概述2 storm与解决nimbus单点相关的概念3 nimbus目前无法做到多节点的原因4 解决nimbus单点问题的关键5 业界对nimbus单点问题的努力6 nimbus单点问题的解决思路7 NimbusCloudStorage的实现8 总结:... 阅读全文

posted @ 2015-03-28 21:48 xymaqingxiang 阅读(883) 评论(0) 推荐(0) 编辑

摘要:对互联网海量数据实时计算的理解1. 实时计算的概念 互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下两种应用场景:1)数据源是实时的不间断的,要求... 阅读全文

posted @ 2015-03-27 22:25 xymaqingxiang 阅读(1553) 评论(0) 推荐(0) 编辑

摘要:本文导读:1、基于storm的应用2、storm的单点故障解决3、strom与算法的结合学习4、杂记——常见问题的解答5、http://www.blogchong.com/catalog.asp?tags=问题整理(storm)Storm存在的一些问题:(V 0.7.4之前)1、编程门槛对普通用户较... 阅读全文

posted @ 2015-03-27 17:58 xymaqingxiang 阅读(617) 评论(0) 推荐(0) 编辑

摘要:Apache Maven is a software project management and comprehension tool 使用maven可以有效的管理项目中使用的JAR,特别是JAR之间的相互依赖。也是优秀的项目构建和单元测试的工具。1:下载最新版本的mavenhttp://ma... 阅读全文

posted @ 2015-03-27 17:33 xymaqingxiang 阅读(177) 评论(0) 推荐(0) 编辑

摘要:Setting Up a Development Environment搭建storm开发环境所需步骤:Download aStorm release, unpack it, and put the unpackedbin/directory on your PATH.(下载storm的releas... 阅读全文

posted @ 2015-03-27 11:10 xymaqingxiang 阅读(331) 评论(0) 推荐(0) 编辑

摘要:一、在Eclipse中建立storm项目:具体步骤如下:1、在Eclipse中新建java project项目并导入jar包:File-> New -> Java Project ->随便取个名字-> Next -> Libraries -> add External JARs...-> 追加twi... 阅读全文

posted @ 2015-03-27 10:34 xymaqingxiang 阅读(882) 评论(0) 推荐(0) 编辑

摘要:备注——使用: 1、单机版本: 启动zkServer、nimbus、supervisor、ui服务: 通过http://UI_Server:8080可以打开Storm Web UI看看Storm集群的状态。 在命令窗口输入: jps 可以查看各个进程的运行状态: 2、集群版本: 将此台nimbus电 阅读全文

posted @ 2015-03-27 09:04 xymaqingxiang 阅读(620) 评论(0) 推荐(0) 编辑

摘要:阅读目录Storm来源初探再探构建第一个版本被Twitter收购开源的Storm发布之后Storm的技术演进构建开发者社区版离开Twitter提交到ApacheApache孵化结论Apache Storm最近成为了ASF的顶级项目,这对于该项目和我个人而言是一个重大的里程碑。很难想像4年前Storm... 阅读全文

posted @ 2015-03-26 18:02 xymaqingxiang 阅读(1604) 评论(0) 推荐(0) 编辑

摘要:This tutorial showed how to do basic stream processing on top of Storm. There's lots more things you can do with Storm's primitives. One of the most i... 阅读全文

posted @ 2015-03-25 21:21 xymaqingxiang 阅读(183) 评论(0) 推荐(0) 编辑

摘要:事务拓扑是怎么回事?Storm guarantees that every message will be played through the topology at least once.Storm has a feature called transactional topologies th... 阅读全文

posted @ 2015-03-25 21:15 xymaqingxiang 阅读(394) 评论(0) 推荐(0) 编辑

摘要:Storm's reliability API: how Storm guarantees that every message coming off a spout will be fully processed.(storm的可靠性API: storm如何保证spout发出的每一个tuple都被... 阅读全文

posted @ 2015-03-25 21:12 xymaqingxiang 阅读(551) 评论(0) 推荐(0) 编辑

摘要:参考链接:Tutorialstorm Tutorial 中文解读+分析导读、摘要:1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控制节点上面运行一个后台程序被称之为什么?3.Supervisor的作用是什么?4.Topology与Worker之间的关系是什... 阅读全文

posted @ 2015-03-25 17:59 xymaqingxiang 阅读(780) 评论(0) 推荐(0) 编辑

摘要:Storm Grouping:Shuffle Grouping :随机分组,尽量均匀分布到下游Bolt中将流分组定义为混排。这种混排分组意味着来自Spout的输入将混排,或随机分发给此Bolt中的任务。shuffle grouping对各个task的tuple分配的比较均匀。Fields Group... 阅读全文

posted @ 2015-03-25 11:46 xymaqingxiang 阅读(7837) 评论(0) 推荐(0) 编辑

摘要:Consistent hashing一致性哈希算法及其在分布式系统中的应用Consistent Hashing一致性哈希库libconhash的使用与实现 阅读全文

posted @ 2015-03-24 10:09 xymaqingxiang 阅读(186) 评论(0) 推荐(0) 编辑

摘要:简介: Storm是一个免费开源、分布式、高容错的实时计算系统。它与其他大数据解决方案的不同之处在于它的处理方式。Hadoop 在本质上是一个批处理系统,数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行处理。当处理完成时,结果数据返回到 HDFS 供始发者使用。Hadoop的... 阅读全文

posted @ 2014-10-12 21:14 xymaqingxiang 阅读(3188) 评论(0) 推荐(1) 编辑

摘要:一、分布式文件系统1、概念分析:分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系... 阅读全文

posted @ 2014-09-11 12:28 xymaqingxiang 阅读(4641) 评论(0) 推荐(1) 编辑