云计算和大数据时代网络技术揭秘(十五)大数据网络

大数据网络设计要点

  对大数据,Gartner的定义是:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

维基百科的定义是:无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

  大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

  大数据的研究非常热门,也产生了很多理论和实践,本章不是探索大数据实现的技术原理,而是从一个典型的大数据模型Hadoop为例,重点

放在其对网络的要求和深远影响。

 

图 map-shuffle-reduce工作原理

首先将任务进行分割

每份子任务复制三份传送到三个节点进行计算

将计算任务与计算结果映射的模块叫shuffle

最后由reduce输出结果(如果是Hadoop,则写入HDFS文件系统)

 

posted on 2015-07-24 21:05  公子Z  阅读(414)  评论(0编辑  收藏  举报

导航