Storm介绍及核心组件和编程模型

离线计算

离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示

代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度

流式计算

流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示

代表技术：Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

一句话总结：将源源不断产生的数据实时收集并实时计算，尽可能快的得到计算结果

离线计算和实时计算的区别

实时收集、实时计算、实时展示

Storm

Storm用来实时处理数据，特点：低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口，便于开发。

Storm和Hadoop的区别

（storm实时流处理，每秒可处理数万条消息；hadoop批处理，HDFS和MapReduce处理大量数据通常需要几分钟到几小时）

Storm用于实时计算，Hadoop用于离线计算。

Storm处理的数据保存在内存中，源源不断；Hadoop处理的数据保存在文件系统中，一批一批。

Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中。

Storm与Hadoop的编程模型相似

Job：任务名称

JobTracker：项目经理

TaskTracker：开发组长、产品经理

Child:负责开发的人员

Mapper/Reduce:开发人员中的两种角色，一种是服务器开发、一种是客户端开发

Topology:任务名称

Nimbus:项目经理

Supervisor:开发组长、产品经理

Worker:开发人员

Spout/Bolt：开人员中的两种角色，一种是服务器开发、一种是客户端开发

Storm应用场景

Storm用来实时计算源源不断产生的数据，如同流水线生产一样。

l 日志分析

从海量日志中分析出特定的数据，并将分析的结果存入外部存储器用来辅佐决策。

l 管道系统

将一个数据从一个系统传输到另外一个系统，比如将数据库同步到Hadoop

l 消息转化器

将接受到的消息按照某种格式进行转化，存储到另外一个系统如消息中间件

Storm核心组件（重要）

Nimbus（主节点）：负责资源分配和任务调度。

Supervisor（从节点）：负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程。---通过配置文件设置当前supervisor上启动多少个worker。worker的数量根据端口号来的！

Worker（进程）：运行具体处理组件逻辑的进程（其实就是一个JVM）。Worker运行的任务类型只有两种，一种是Spout任务，一种是Bolt任务。

Task（线程）：worker中每一个spout/bolt的线程称为一个task. 在storm0.8之后，task不再与物理线程对应，不同spout/bolt的task可能会共享一个物理线程，该线程称为executor。task=线程=executor

Zookeeper（分布式协调服务） :保存任务分配的信息、心跳信息、元数据信息。

Storm编程模型（重要）

Topology：Storm中运行的一个实时应用程序的名称。（拓扑）

Spout：在一个topology中获取源数据流的组件。通常情况下spout会从外部数据源中读取数据，然后转换为topology内部的源数据。

Bolt：接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。

Tuple：一次消息传递的基本单元，理解为一组消息就是一个Tuple。

Stream：表示数据的流向。

流式计算一般架构图（重要）

l 其中Flume用来获取数据。

l Kafka用来临时保存数据。

l Strom用来计算数据。

l Redis是个内存数据库，用来保存数据。

posted @ 2017-05-15 22:25 ahu-lichang 阅读(2532) 评论(0) 编辑收藏举报

ahu-lichang

Storm介绍及核心组件和编程模型

公告