[Hadoop in China 2011] Hadoop之上 中国移动“大云”系统解析
http://server.it168.com/a2011/1203/1283/000001283163.shtml
▲中国移动研究院业务支撑所所长孙少陵
在12月3日的HiC2011大会上,中国移动研究院业务支撑所所长孙少陵发表了“电信运营商大数据处理应用研究和实践”的主题演讲。
孙少陵引用了维基百科对大数据的定义,即无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。同时他介绍了大数据呈现出三大特征,即3V:数据大(Volume),例如Facebook每天在30万台服务器上 处理25Tb数据;时效性要求高(Velocity),例如搜索引擎要求在几分钟内为用户查询新闻;种类和来源多样化(Variety),除了结构化的数 据、半架构化、非结构化的数据大量产生,有的数据来自关系型数据库,有的数据来自数据仓库,而有的数据来自互联网网页等。目前对大数据的处理主要应用于分 析型的应用场景,如搜索引擎网页处理、用户行为分析、商业智能(BI)等。
根据IDC的报告,未来10年全球数据量将以40%的速度增长,2020年全球数据量将达到35ZB,是2009年的44倍。随着移动终端的快速发展,手机每 天产生的信息量已经大大增加,与此同时,和很多企业一样,中国移动也越来越需要长期保存各类数据,来对用户行为进行分析、做市场研究。但由于存储容量的限 制,中国移动对数据存储的周期正在逐年缩短。截止2010年,中国移动业务支撑系统存储容量约3万TB,网管系统约3000TB。
在2007年,中国移动开始了对“大云”的研究,目前已经推出了“大云”1.5版本,孙少陵介绍,“大云”1.5产品中的分析型PaaS产品就基于Hadoop平台。
▲中国移动“大云”1.5产品总体架构
在中国移动“大云”1.5产品总体架构中,分析型PaaS产品底层基于Hadoop数据存储和分析平台,在此数据基础之上建立数据仓库系统,整合并行数 据挖掘工具、数据抽取转换以及搜索引擎,来提供商务智能平台,该商务智能平台既可以用于移动自身对用户数据的挖掘和处理,可可以作为IDC服务供应。
根据孙少陵分享的测试数据来来看,基于Hadoop的数据抽取转换具有明显的低成本高性能特征,硬件成本仅为1/5,而性能却提升了3倍以上,这也更加 坚定了孙少陵对Hadoop平台发展前景的信心。同时他还透露中国移动希望建立Hadoop中国的分支,并计划在2012年启动。