随笔分类 -  Storm学习

摘要:1. storm 事务 对于容错机制,Storm通过一个系统级别的组件acker,结合xor校验机制判断一个msg是否发送成功,进而spout可以重发该msg,保证一个msg在出错的情况下至少被重发一次。但是在一些事务性要求比较高的场景中,需要保障一次只有一次的语义,比如需要精确统计tuple的数量 阅读全文
posted @ 2017-08-07 19:42 天~宇~翱~翔 阅读(1107) 评论(0) 推荐(0) 编辑
摘要:1. 核心原理 一个运行中的拓扑是由什么组成的:worker进程,executors和tasks。Storm是按照下面3种主要的部分来区分Storm集群中一个实际运行的拓扑的:Worker进程、Executors (线程) 以及真正实施计算的Tasks(任务),先简单回顾一下storm几个核心概念: 阅读全文
posted @ 2017-08-02 15:29 天~宇~翱~翔 阅读(544) 评论(0) 推荐(0) 编辑
摘要:1. 编程模型 DataSource:外部数据源 Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt Bolt:接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。 阅读全文
posted @ 2017-08-01 13:58 天~宇~翱~翔 阅读(310) 评论(0) 推荐(0) 编辑
摘要:1. 客户端运行storm nimbus时,会调用storm的python脚本,该脚本中为每个命令编写一个方法,每个方法都可以生成一条相应的java命令。 命令格式如下:java -server xxxx.ClassName -args 2. nibums启动之后,接受客户端提交任务 命令格式:st 阅读全文
posted @ 2017-08-01 13:49 天~宇~翱~翔 阅读(920) 评论(0) 推荐(0) 编辑
摘要:消息通过各种方式进入到Kafka消息中间件,比如可以通过使用Flume来收集日志数据,然后在Kafka中路由暂存,然后再由实时计算程序Storm做实时分析,最后将结果保存在HDFS中,这时我们就需要将在Storm的Spout中读取Kafka中的消息,然后交由具体的Spot组件去分析处理。下面开发一个 阅读全文
posted @ 2017-07-31 18:55 天~宇~翱~翔 阅读(885) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示