打赏

随笔分类 -  Storm概念学习系列

摘要:不多说,直接上干货! Storm的雪崩问题的解决办法1: Storm概念学习系列之并行度与如何提高storm的并行度 Storm的雪崩问题的解决办法2: 阅读全文
posted @ 2017-07-28 15:44 大数据和AI躺过的坑 阅读(707) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 阅读全文
posted @ 2017-07-28 15:36 大数据和AI躺过的坑 阅读(410) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 以下都是非常重要的storm概念知识。 (Tuple元组数据载体 、Spout数据源、Blot消息处理者、Stream消息流 和 Stream Grouping 消息流组、Worker工作者进程、Task是最终运行spout或bolt中代码的执行单元、executor是work 阅读全文
posted @ 2017-07-28 15:34 大数据和AI躺过的坑 阅读(448) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 至于为什么,有storm的定时任务。这个很简单。但是,这个在工作中非常重要! 假设有如下的业务场景 这个spoult源源不断地发送数据,boilt呢会进行处理。然后呢,处理后的结果,假设要写到mysql里面。 假设,spout有几十万条,这么过来。写入到bolt,意味着,它一秒 阅读全文
posted @ 2017-07-28 14:10 大数据和AI躺过的坑 阅读(664) 评论(0) 推荐(0) 编辑
摘要:这个概念,对于理解storm很有必要。 1、worker进程死掉 worker是真实存在的。可以jps查看。 正是因为有了storm的可靠性,所以storm会重新启动一个新的worker进程。 2、supervisor进程死掉 不会影响之前已经提交的topology的执行,只是后期不能再想这个节点分 阅读全文
posted @ 2017-07-28 13:35 大数据和AI躺过的坑 阅读(337) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 对于storm来说,并行度的概念非常重要!大家一定要好好理解和消化。 storm的并行度,可以简单的理解为多线程。 如何提高storm的并行度? storm程序主要由spout和bolt组成的。spout和bolt在运行期间会生成task实例(new Spout或者new bo 阅读全文
posted @ 2017-07-27 21:13 大数据和AI躺过的坑 阅读(655) 评论(0) 推荐(0) 编辑
摘要:把stream当做一列火车, tuple当做车厢,spout当做始发站,bolt当做是中间站点!!! 见 Storm概念学习系列之Spout数据源 Storm概念学习系列之Topology拓扑 Storm概念学习系列之Blot消息处理者 Storm概念学习系列之Tuple元组 阅读全文
posted @ 2017-07-27 20:54 大数据和AI躺过的坑 阅读(645) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 数据流模型 数据流模型是由数据流、数据处理任务、数据节点、数据处理任务实例等构成的一种数据模型。本节将介绍的数据流模型如图1所示。 分布式流处理系统由多个数据处理节点(node)组成,每个数据处理节点上运行有多个数据任务实例,每个数据任务实例属于一个数据任务定义。任务实例是在任 阅读全文
posted @ 2016-10-23 11:56 大数据和AI躺过的坑 阅读(1333) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 事务 这里的事务是专门针对Topology提出来的,是为了解决元组在处理失败重新发送后的一系列问题的。简而言之,事务拓扑(transactional topology)就是指Storm以并行和顺序处理混合的方式处理元组,一方面是处理消息,将消息分为一批批,并行处理同一批内的消息 阅读全文
posted @ 2016-10-23 11:54 大数据和AI躺过的坑 阅读(352) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Worker、Task、Executor三者之间的关系 Storm集群中的一个物理节点启动一个或者多个Worker进程,集群的Topology都是通过这些Worker进程运行的。 然而,Worker进程中又会运行一个或者多个Executor线程,每个Executor线程只运行一 阅读全文
posted @ 2016-10-23 11:53 大数据和AI躺过的坑 阅读(868) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Worker工作者进程 工作者进程(Worker)是一个java进程,执行拓扑的一部分任务。一个Worker进程执行一个Topology的子集,它会启动一个或多个Executor线程来执行一个Topology的组件(Spout或Bolt)。因此,拓扑在执行时,可能跨一个或多个W 阅读全文
posted @ 2016-10-23 11:52 大数据和AI躺过的坑 阅读(370) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 每一个Spout/Bolt的线程称为一个Task。 Task任务 Task是运行Spout或Bolt的单元,每一个Spout/Bolt的线程称为一个Task。 在Storm 0.8及之后的版本中,Task不再与物理线程对应,同一个Spout/Bolt的Task可能会共享一个物理 阅读全文
posted @ 2016-10-23 11:51 大数据和AI躺过的坑 阅读(552) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Stream消息流是Storm中最关键的抽象,是一个没有边界的Tuple序列。 Stream Grouping 消息流组是用来定义一个流如何分配到Tuple到Bolt。 Stream消息流和Stream Grouping消息流组 Storm核心的抽象概念是“流”。流是一个分布式 阅读全文
posted @ 2016-10-23 11:50 大数据和AI躺过的坑 阅读(655) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Hadoop 上运行的是 MapReduce 作业,而在 Storm 上运行的是拓扑 Topology,这两者之间是非常不同的。一个关键的区别是:一个MapReduce 作业最终会结束,而一个 Topology 拓扑会永远运行(除非手动杀掉)。 Topology拓扑 从字面上解 阅读全文
posted @ 2016-10-23 11:49 大数据和AI躺过的坑 阅读(4078) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Bolt消息处理者 认识了消息源Spout和消息的数据存储元组Tuple,接下来了解消息的处理者Bolt。Bolt是接收Spout发出元组Tuple后处理数据的组件,所有的消息处理逻辑被封装在Bolt中,Bolt负责处理输入的数据流并产生输出的新数据流。 1. Bolt介绍 消 阅读全文
posted @ 2016-10-23 11:46 大数据和AI躺过的坑 阅读(1190) 评论(0) 推荐(1) 编辑
摘要:不多说,直接上干货! Spout 数据源 消息源Spout是Storm的Topology中的消息生产者(即Tuple的创造者)。 Spout 介绍 1. Spout 的结构 Spout 是 Storm 的核心组件之一,最源头的接口是 IComponent,如图 1所示,几个Spout接口都继承自IC 阅读全文
posted @ 2016-10-23 11:33 大数据和AI躺过的坑 阅读(1117) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Tuple元组 Tuple 是 Storm 的主要数据结构,并且是 Storm 中使用的最基本单元、数据模型和元组。 Tuple 描述 Tuple 就是一个值列表, Tuple 中的值可以是任何类型的,动态类型的Tuple的fields可以不用声明;默认情况下,Storm中的T 阅读全文
posted @ 2016-10-23 11:31 大数据和AI躺过的坑 阅读(3417) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! storm的功能 Storm 有许多应用领域:实时分析、在线机器学习、持续计算、分布式 RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading 的缩写,即数据抽取、转换和加载)等。 下面介绍 阅读全文
posted @ 2016-10-23 11:23 大数据和AI躺过的坑 阅读(1789) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! storm的特性 Storm 是一个开源的分布式实时计算系统,可以简单、可靠地处理大量的数据流。 Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个节点每秒可以处理数以百万计的消息)。 Storm 的部署和运维都很便捷,而且更 阅读全文
posted @ 2016-10-23 11:21 大数据和AI躺过的坑 阅读(759) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Storm核心组件 了解 Storm 的核心组件对于理解 Storm 原理非常重要,下面介绍 Storm 的整体,然后介绍 Storm 的核心。 Storm 集群由一个主节点和多个工作节点组成。主节点运行一个名为“Nimbus”的守护进程,工作节点都运行一个名为“Supervi 阅读全文
posted @ 2016-10-23 11:20 大数据和AI躺过的坑 阅读(679) 评论(0) 推荐(0) 编辑