大数据全体系年终总结
摘要:到年底了,想着总结下所有知识点好了~今年应用的知识点还是很多的~ Hadoop生态圈: 1、文件存储当然是选择Hadoop的分布式文件系统HDFS,当然因为硬件的告诉发展,已经出现了内存分布式系统Tachyon,不论是Hadoop的MapReduce,Spark的内存计算、hive的MapReudu
阅读全文
posted @
2016-12-11 15:54
松伯
阅读(3866)
推荐(0) 编辑
实时交互平台流程与技术分析
摘要:最近几个月一直在做基于storm的流式处理,索性整理下所有的知识点与技术知识。 一、数据准备 1、首先,我们需要用户的所有数据,使用MapReduce进行数据处理,生成业务宽表导入hbase与Redis,用于后续实时处理直接从Redis中获取相应数据,减少读写磁盘IO的消耗。 二、消息的接入 1、传
阅读全文
posted @
2016-08-25 11:24
松伯
阅读(454)
推荐(0) 编辑
初版storm项目全流程自动化测试代码实现
摘要:由于项目需要,写了版针对业务的自动化测试代码,主要应用场景在于由于业务日趋复杂,一些公共代码的改动,担心会影响已有业务。还没进行重写,但知识点还是不少的与大家分享实践下。首先,介绍下整个流处理的业务流程。 首先 从网管实时接入数据到kafka,然后消息接入 进行预处理(这个过程是通过jetty框架,
阅读全文
posted @
2016-08-13 11:13
松伯
阅读(550)
推荐(0) 编辑
基于Redis、Storm的实时数据查询实践
摘要:通过算法小组给出的聚合文件,我们需要实现一种业务场景,通过用户的消费地点的商户ID与posId,查询出他所在的商圈,并通过商圈地点查询出与该区域的做活动的商户,并与之进行消息匹配,推送相应活动信息到用户手机。 那么整个流程分为两步,第一步,将整个聚合文件刷入缓存,文件数据格式如下: 29 1:1 1
阅读全文
posted @
2016-08-11 13:51
松伯
阅读(7492)
推荐(0) 编辑
Storm Ack框架笔记
摘要:Storm利用Acker Bolt节点跟踪消息,当Spout发送出去的消息以及这些消息所衍生出来的消息均被处理后,Spout将受到对应于该消息的Ack。实现要点: 1、Storm中每条发送出去的消息都会对应一个随机的消息ID。 2、Spout发送消息后,将向Acker Bolt发送一条消息,该消息内
阅读全文
posted @
2016-06-05 20:53
松伯
阅读(471)
推荐(0) 编辑
Storm Bolt接口
摘要:Bolt是Topology中数据处理的基本单元,也是Storm针对处理过程的编程单元。Topology中所有的处理都是在这些bolt中完成的。 Bolt可以将数据项发送至多个数据流(Stream)。编程人员首先可以使用OutputFieldsDeclarer类的declareStream()方法声明
阅读全文
posted @
2016-05-14 01:00
松伯
阅读(822)
推荐(0) 编辑
Storm Topology及分组原理
摘要:Storm的通信机制,需要满足如下一些条件以满足Storm的语义。 1、建立数据传输的缓冲区。在通信连接没有建立之前把发送的数据缓存起来。数据发送方可以在连接建立之前发送消息,而不需要等连接建立起来,可是的接收方是独立运行的。 2、在消息传输层保证消息最多只能发送一次,Storm系统有ACK机制,是
阅读全文
posted @
2016-05-13 00:41
松伯
阅读(710)
推荐(0) 编辑
Storm的数据处理编程单元:Bolt 学习整理
摘要:Bolt是Topology中的数据处理的单元,也是Storm针对处理过程的编程单元。Topology中所有的处理都是在这些Bolt中完成的,编程人员可以实现自定义的处理过程,例如,过滤、函数、聚集、连接等计算。如果是复杂的计算过程,往往需要多个步骤和使用多个Bolt。 Bolt可以将数据项发送...
阅读全文
posted @
2016-01-16 20:45
松伯
阅读(1498)
推荐(0) 编辑
storm的数据源编程单元Spout学习整理
摘要:Spout呢,是Topology中数据流的源头,也是Storm针对数据源的编程单元。一般数据的来源,是通过外部数据源来读取数据项(Tuple),并读取的数据项传输至作业的其他组件。编程人员一般可通过OutputFieldsDeclarer类的declareStream()方法来声明多个流,指定数据将...
阅读全文
posted @
2016-01-12 22:56
松伯
阅读(3051)
推荐(0) 编辑
storm的作业单元:Topology
摘要:Storm系统的数据处理应用单元,是被打包的被称为Topology的作业。 它是由多个数据处理阶段组合而成的,而每个处理阶段在构造时被称为组件(Component),在运行时被称为任务。那么,组件根据作用的不同,在Storm中分为两类:Spout组件和Bolt组件。而Topology就是这两类组件通...
阅读全文
posted @
2016-01-10 21:38
松伯
阅读(351)
推荐(0) 编辑
storm系统架构学习
摘要:Storm架构如下图所示:1、主控节点(Master Node) 运行Storm nimbus后台服务的节点(Nimbus),它是storm系统的中心,负责接收用户提交的作业(如同spark submit一样 即为jar包形式保存的topology代码),通过Zookeeper向每个工作节点分配处...
阅读全文
posted @
2016-01-10 20:59
松伯
阅读(828)
推荐(0) 编辑
storm概念学习及流处理与批处理的区别
摘要:在过去10 年中,随着互联网应用的高速发展,企业积累的数据量越来越大,越来越多。随着Google MapReduce、Hadoop 等相关技术的出现,处理大规模数据变得简单起来,但是这些数据处理技术都不是实时的系统,它们的设计目标也不是实时计算。毕竟实时的计算系统和基于批处理模型的系统(如Hadoo...
阅读全文
posted @
2016-01-10 19:05
松伯
阅读(6695)
推荐(1) 编辑
Topology的构建
摘要:public class BlackListBolt extends BaseRichBolt{ private static Logger logger = Logger.getLogger(BlackListBolt.class); private OutputCollector collect...
阅读全文
posted @
2015-10-10 17:24
松伯
阅读(453)
推荐(0) 编辑