大数据“复活”记

如今，移动互联网深入渗透到人们的工作和生活中，带来了数据量的爆炸式增长。例如，社交网络平台Twitter成立只有短短13年，但其数据量已经庞大到了超过全世界数字化书籍的数据量总和。

　　这仅仅是大数据时代的一个典型范例。数据量的增长速度到底有多快？此前有推测称，预计到2020年，世界上每个人每秒将创建7MB数据，这还不包括物体上的传感器产生的数据。而随着5G的到来，传感器可能会遍布在我们身边的每个地方，大数据必然如暴风雨向我们袭来，而所要处理的信息更加难以估量。如今，我们计量大数据的单位已经是PB、EB甚至ZB，PB级的数据在大数据时代早已经见怪不怪，5EB数据量相当于至今全世界人类所讲过的话;1ZB相当于全世界海滩的沙子数量总和。

　　“大数据已死”之说与数据的价值迷思

　　都说“得数据者得天下”，然而让人失望的是，这个世界上的大多数数据都没有被充分挖掘和应用，就像是闪闪发光的金子被埋葬于地下。从海量的数据中挖掘出有价值的信息，就如同浪里淘金一般困难。

　　毋庸置疑，数据将成为企业的智能生产力，为企业在数字世界与现实世界的深度融合提供全面的竞争力。此外，大数据技术和应用已经从喧嚣的膨胀期进入到了“技术成熟度曲线”的成熟应用期，更多的企业从尝试性部署进入到了规模部署阶段。

　　随着5G时代的到来，我们将会进入到一个万亿级链接的时代，而5G的毫秒级时延、超大的带宽，让企业必须快速响应市场。大数据分析已经从辅助决策转变为了实时生产系统，精准、实时地展示分析结果。

　　纵观整个大数据行业，自从2006年Apache Hadoop架构发布以来，企业一般是在自己的机房自建IDC数据中心，而采用的大多是基于Hadoop的架构演进出来的开源或者商用的大数据软件。这种架构的设计基于计算和数据就近的原则，采用计算和存储融合的架构，也被称为”一体机”。然而，企业在IDC中部署这种“一体机”带来的问题是，其计算和存储本身的配比关系相对是固定的，也就是说，每一台服务器提供多少算力，同时也提供多少存储容量。当计算出现不足，而存储还有很多空间的时候，企业无法单独扩容计算节点，反之亦然。实际应用中，自建方案为存算一体的方案，平均资源利用率低于25%。

　　如今，现有的存算一体架构已经无法满足大数据的增长速度，这也是很多大数据行业专家提出“大数据已死“的一个主要原因。那么，企业大数据应用主要面临着哪些挑战？

　　首先，企业需要面向结构化数据、非结构化数据、实时数据等多种类型的数据提供高扩展且统一的数据管理和数据存储能力;

　　其次，在数据空间持续增长的背景下，大数据应用场景不断增加，企业需要更加高效的算力。例如爆款新品、热点事件等带来的业务浪涌，需要企业大数据系统拥有极致的弹性能力。

　　再次，大数据行业技术栈迭代迅速，企业自行构建IDC中心和自行部署软件，一次性投资大，且折旧成本高，运营运维负担沉重。

　　最后，企业需要的不是独立的大数据软件或组件，而是需要一套完整的从数据存储到数据集成再到数据分析挖掘的解决方案，用以满足企业持续发展的需求。

　　破解企业大数据之殇的利器——BigData Pro

　　可能很多人会又一个疑问，既然存算一体的架构挑战重重，那么，计算和存储是否一定要在一起？实际上，当网络不再是瓶颈，计算和存储就可以分离。计算和存储分开之后的好处也是显而易见的。

　　过去，原有非互联网数据可以很容易地集中输送到数据仓库，数据在本地获取，相对来说比较方便便捷。但当前的海量数据的产生是分布式的过程，尤其是互联网快速发展，不管是用户的支付行为、游戏，又或是用户在网络上的浏览行为等等，这些分布式数据如何快速汇集到一个地方呢？这种分布式数据生产，需要有一个分布式专门处理云数据的存储设备来对数据进行采集和管理。而公有云的云存储(主要是对象存储)本身就是互联网存储服务的形态，不管是通过公网或专线，都可以很容易地把不同来源的数据汇总起来，从这个层面来看，云存储的优势就显现出来。

　　不久前，华为云在重庆智博会上发布的业界首个鲲鹏大数据解决方案——BigData Pro就是基于上述背景而诞生，是云上的计算和存储分离大数据解决方案。企业拥有更高性能、更高扩展、更易访问的海量数据管理和大数据分析能力将成为现实。

据笔者了解，华为云BigData Pro鲲鹏大数据解决方案实现了四大pro进化，同时兼容开源和商业大数据生态，让企业大数据应用可0改造平滑移植上云：

　　首先，华为云对大数据架构进行了升级，推出了基于云服务的存算分离架构。让企业能对存储和计算资源灵活配置，根据业务需要各自独立进行弹性扩展。资源匹配更精准、更合理，让大数据集群资源利用率大幅提升，综合分析成本最高可降低50%。

　　其次，智能云存储进化，多协议互通大幅降低数据存储成本。华为云OBS对象存储服务全新的Data Multi-Protocol功能，提供统一的数据存储底座，可实现多样化异构数据共池存储，同时提供多协议访问和互通能力，让大数据应用可以直接读写OBS，无需协议转换，数据之间互通共享，可避免数据多次转换或拷贝，大幅提高分析效率，存储利用率提升140%。

　　再次，得益于华为鲲鹏处理器多核优势，结合华为云在任务调度上的算法优化，使得CPU具有更高的并发能力。在数据传输效率方面，集成了100G网络控制器，是当前数据中心主流25G网络带宽的4倍，让大数据集群之间的数据传输效率成倍提升。在海量数据高并发场景，华为云BigData Pro鲲鹏大数据解决方案充分发挥鲲鹏多核的极致性能，让云上部署的大数据集群综合性价比领先业界通用架构平台20%。

　　最后，由于采用了鲲鹏云容器技术，算力可无限扩展。借助Serverless架构优势和华为自研的高性能容器批量计算平台Volcano，鲲鹏云容器的发放速度可以达到每秒1000台，提升了10倍;高性能容器网络降低容器间通信时延，转发效率超业界50%。

　　弹性!精准!效益!

　　可以说，从应用层面上，华为云BigData Pro鲲鹏大数据解决方案解决了一个个看似简单、背后却非常复杂的问题。因为虽然海量数据就在那里，但能不能把它们变成有价值的信息才是关键。华为云云存储技术专家在采访中也表示，华为云BigData Pro鲲鹏大数据解决方案特别适合于存储数据量和计算量相对比较大、且有弹性需求的场景。毕竟，大数据在各个行业归根结底，本质上都是体现在批处理和流处理两个方面。

以游戏直播为例，通常数据量会达到PB级。在直播过程中，主播和观众是有交互的，如观众给主播送礼物等。直播平台会根据主播与观众互动的行为，生成行为分析进行大数据批处理，例如，主播的哪些行为和操作能带来更多的观众，又或是哪些行为对粉丝的吸引有负影响，处理结果反馈给主播来支撑行为决策。同时，能够给直播平台反馈出数据分析，例如推出哪些业务组合是比较受用户和主播欢迎，通过用户画像和用户行为分析来支撑整个运营的决策。据了解，斗鱼网络基于华为云BigData Pro大数据方案，构建公有云上的存算分离大数据分析平台，分析时长平均缩短35%。

　　再以广告营销行业为例，我们知道，广告行业的核心就是做用户画像，做完用户画像以后，如果有广告商需要投放什么广告，会把相应的广告投放到对应的客户群体去。用户画像的数据量是比较庞大的，因为一般是从全球采集的实时数据来构建用户的画像库，而计算和存储资源更好的匹配则可以大幅降低大数据业务构建的成本，也摆脱复杂的底层运维工作。

　　写在最后

　　Cloud+AI+5G+IoT时代意味着更多样的数据源、更大规模的数据量级、更巨大的算力需求？不用慌，华为云BigData Pro鲲鹏大数据解决方案将帮助企业打开通往大数据未来的希望之门。

　　9月18日-9月20日，2019华为全联接大会(HUAWEI CONNECT 2019)将在上海世博中心举办，各种最新黑科技、产品与解决方案将重磅亮相。