摘要: 分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算,但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。 DAG是任务链的图形化表示,我们用它来描述流处理作业的拓扑。如下图,数据从sources流经处理任务链到sinks。单机可以运 阅读全文
posted @ 2017-02-01 23:55 bonelee 阅读(8816) 评论(0) 推荐(0) 编辑
摘要: 简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术 阅读全文
posted @ 2017-02-01 22:48 bonelee 阅读(3881) 评论(0) 推荐(1) 编辑
摘要: 转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统 阅读全文
posted @ 2017-02-01 00:13 bonelee 阅读(10532) 评论(0) 推荐(0) 编辑