Storm - 随笔分类 - 松伯

大数据全体系年终总结

摘要：到年底了，想着总结下所有知识点好了~今年应用的知识点还是很多的~ Hadoop生态圈： 1、文件存储当然是选择Hadoop的分布式文件系统HDFS，当然因为硬件的告诉发展，已经出现了内存分布式系统Tachyon，不论是Hadoop的MapReduce,Spark的内存计算、hive的MapReudu 阅读全文

posted @ 2016-12-11 15:54 松伯阅读(3866) 评论(0) 推荐(0) 编辑

实时交互平台流程与技术分析

摘要：最近几个月一直在做基于storm的流式处理，索性整理下所有的知识点与技术知识。一、数据准备 1、首先，我们需要用户的所有数据，使用MapReduce进行数据处理，生成业务宽表导入hbase与Redis，用于后续实时处理直接从Redis中获取相应数据，减少读写磁盘IO的消耗。二、消息的接入 1、传阅读全文

posted @ 2016-08-25 11:24 松伯阅读(454) 评论(0) 推荐(0) 编辑

初版storm项目全流程自动化测试代码实现

摘要：由于项目需要，写了版针对业务的自动化测试代码，主要应用场景在于由于业务日趋复杂，一些公共代码的改动，担心会影响已有业务。还没进行重写，但知识点还是不少的与大家分享实践下。首先，介绍下整个流处理的业务流程。首先从网管实时接入数据到kafka，然后消息接入进行预处理（这个过程是通过jetty框架，阅读全文

posted @ 2016-08-13 11:13 松伯阅读(550) 评论(0) 推荐(0) 编辑

基于Redis、Storm的实时数据查询实践

摘要：通过算法小组给出的聚合文件，我们需要实现一种业务场景，通过用户的消费地点的商户ID与posId，查询出他所在的商圈，并通过商圈地点查询出与该区域的做活动的商户，并与之进行消息匹配，推送相应活动信息到用户手机。那么整个流程分为两步，第一步，将整个聚合文件刷入缓存，文件数据格式如下： 29 1:1 1 阅读全文

posted @ 2016-08-11 13:51 松伯阅读(7492) 评论(1) 推荐(0) 编辑

Storm Ack框架笔记

摘要：Storm利用Acker Bolt节点跟踪消息，当Spout发送出去的消息以及这些消息所衍生出来的消息均被处理后，Spout将受到对应于该消息的Ack。实现要点： 1、Storm中每条发送出去的消息都会对应一个随机的消息ID。 2、Spout发送消息后，将向Acker Bolt发送一条消息，该消息内阅读全文

posted @ 2016-06-05 20:53 松伯阅读(471) 评论(0) 推荐(0) 编辑

Storm Bolt接口

摘要：Bolt是Topology中数据处理的基本单元，也是Storm针对处理过程的编程单元。Topology中所有的处理都是在这些bolt中完成的。 Bolt可以将数据项发送至多个数据流（Stream)。编程人员首先可以使用OutputFieldsDeclarer类的declareStream()方法声明阅读全文

posted @ 2016-05-14 01:00 松伯阅读(822) 评论(0) 推荐(0) 编辑

Storm Topology及分组原理

摘要：Storm的通信机制，需要满足如下一些条件以满足Storm的语义。 1、建立数据传输的缓冲区。在通信连接没有建立之前把发送的数据缓存起来。数据发送方可以在连接建立之前发送消息，而不需要等连接建立起来，可是的接收方是独立运行的。 2、在消息传输层保证消息最多只能发送一次，Storm系统有ACK机制，是阅读全文

posted @ 2016-05-13 00:41 松伯阅读(710) 评论(0) 推荐(0) 编辑

Storm的数据处理编程单元:Bolt 学习整理

摘要：Bolt是Topology中的数据处理的单元，也是Storm针对处理过程的编程单元。Topology中所有的处理都是在这些Bolt中完成的，编程人员可以实现自定义的处理过程，例如，过滤、函数、聚集、连接等计算。如果是复杂的计算过程，往往需要多个步骤和使用多个Bolt。 Bolt可以将数据项发送... 阅读全文

posted @ 2016-01-16 20:45 松伯阅读(1498) 评论(0) 推荐(0) 编辑

storm的数据源编程单元Spout学习整理

摘要：Spout呢，是Topology中数据流的源头，也是Storm针对数据源的编程单元。一般数据的来源，是通过外部数据源来读取数据项(Tuple)，并读取的数据项传输至作业的其他组件。编程人员一般可通过OutputFieldsDeclarer类的declareStream()方法来声明多个流，指定数据将... 阅读全文

posted @ 2016-01-12 22:56 松伯阅读(3051) 评论(0) 推荐(0) 编辑

storm的作业单元：Topology

摘要：Storm系统的数据处理应用单元，是被打包的被称为Topology的作业。它是由多个数据处理阶段组合而成的，而每个处理阶段在构造时被称为组件(Component),在运行时被称为任务。那么，组件根据作用的不同，在Storm中分为两类:Spout组件和Bolt组件。而Topology就是这两类组件通... 阅读全文

posted @ 2016-01-10 21:38 松伯阅读(351) 评论(0) 推荐(0) 编辑

storm系统架构学习

摘要：Storm架构如下图所示:1、主控节点(Master Node) 运行Storm nimbus后台服务的节点(Nimbus)，它是storm系统的中心，负责接收用户提交的作业(如同spark submit一样即为jar包形式保存的topology代码)，通过Zookeeper向每个工作节点分配处... 阅读全文

posted @ 2016-01-10 20:59 松伯阅读(828) 评论(0) 推荐(0) 编辑

storm概念学习及流处理与批处理的区别

摘要：在过去10 年中，随着互联网应用的高速发展，企业积累的数据量越来越大，越来越多。随着Google MapReduce、Hadoop 等相关技术的出现，处理大规模数据变得简单起来，但是这些数据处理技术都不是实时的系统，它们的设计目标也不是实时计算。毕竟实时的计算系统和基于批处理模型的系统（如Hadoo... 阅读全文

posted @ 2016-01-10 19:05 松伯阅读(6695) 评论(2) 推荐(1) 编辑

Topology的构建

摘要：public class BlackListBolt extends BaseRichBolt{ private static Logger logger = Logger.getLogger(BlackListBolt.class); private OutputCollector collect... 阅读全文

posted @ 2015-10-10 17:24 松伯阅读(453) 评论(0) 推荐(0) 编辑

随笔分类 - Storm

搜索

常用链接

随笔分类 (236)

随笔档案 (232)

阅读排行榜

评论排行榜

推荐排行榜

最新评论