大数据领域十大趋势
如今,几乎每家企业都在大谈数据化,推动数字化创新。其实,在整个变革过程中,数据才是最重要的一环。所以“数据变成现代企业竞争的新资源”,这种说法一点都不夸张,大家都在试图枪占更多数据,但实际上,到今天为止,从大量收集数据到转化为实际的数据价值,还有一定的挑战。只有那些能够解决大数据挑战的企业,才能真正在数字化创新的成果中获益。
那么,2019 年大数据领域到底有哪些新趋势?总结如下十大要点:
一、数据管理仍然是一个巨大难题
使用大数据分析数据背后的逻辑,再清楚不过。在大量数据中发现隐藏的信息模式,并通过机器学习模式发现这些模式用于生产,以自动化模式进行操作。在必要时,还要重复清洗一些数据。看上去简单,实际上从概念到投入生产环境,存在着巨大的鸿沟。特别对于初学者来说,从不同的数据库收集数据需要 ETL(Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程)和很多专业的数据库操作。数据清洗(数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成)并根据大数据进行机器学习训练,也需要大量的时间和金钱,尤其在使用深度学习技术时,挑战更大。也就是,想要通过大数据挖掘出更有价值的内容,需要特殊技能,甚至需要一整套更高明的解决方案。正是这样的原因,数据管理依然有提高的空间,数据工程师也因此成为最受企业赏识的职业角色。
二、数据孤岛问题激增
在5年前,Hadoop 正处于鼎盛时期,我们就想把所有数据(用于分析和事务工作负载)合并到一个平台上。由于种种原因,这一想法从未真正实现。其原因是不同的数据类型有不同的存储需求(关系型数据库、非关系型数据库、图形数据库、时间序列数据库、HDFS和对象存储都有各自的优缺点)如果开发人员将所有的数据都存储在相同的库中,数据就不能最大限度的发挥优势。那为什么还要将大量数据收集在一块,譬如:S3这样的云存储为企业应用提供了灵活且具有成本效益的存储,而 Hadoop 可以用于非结构化数据存储分析。对于大多数企业来说,他们采取的方式,只是选择建立了新的架构平台,当平台越来越多,数据孤岛问题也就随之扩散。
三、流媒体分析技术迎来最具有突破性一年
处理数据的数据越快,你的企业也就越好。这就是实时或流媒体分析背后的驱动力。但现实中实现相当困难且成本较高。如今,随着企业分析团队的成熟和技术的不断进步,这种情况正在发生变化。 NewSQL 数据库、内存中的数据网络和专用的流分析平台正在围绕一个共同的功能聚合,既对传入数据的超快处理,使用机器学习模式来自动化决策。如果再使用 Kafka 、Spark 和 Flink 等开源框架中的 SQL 功能结合起来,企业就可以取得真正意义上的进展。
四、数据治理带来了风险
数据被称为“新能源”、“新货币”主要来突出它的价值。但是每一种新的事务,都会有一定的风险。例如:18年近 6000 万美国人受到身份认证信息盗窃的影响,比 17 年增加了 300% 数据泄露问题已经将大数据推到了风口浪尖。大多数企业都意识到,大数据的野蛮增长时代将结束(以前企业都靠流量)。虽然暂时没有人会对数据滥用处以罚款,但是可以肯定是,这种行为将不会被大众容忍,例如:李彦宏说 “中国人愿意用隐私交换便利性” 被广大网友批斗的体无完肤等等。
五、随着技术的发展,大数据技能也在不断变化
人力通常是大数据项目中最大的成本,因为人最终是构建、运行并让大数据投入使用的执行者。招聘用于合适能力的员工,对于数据转化价值是绝对关键的,不管使用什么技术。但随着技术的进步,我们所理解的技术外沿,也在发生变化。19 年你会发现将神经网络投入生产的人才,会更加炙手可热。在纯粹的数据科学家中, Python 继续在语言中占主导地位。尽管对于了解R、SAS、Scala、Java和C 语言来说,只了解 Python 的人,还欠缺很多技能。
随着数据治理的快速发展,数据管理员会成为最后欢迎的人才,能够使用核心工具(Spark、数据库、Airflow等)的数据工程师,将会看到新的发展机会。实际上,自动化技术的进步,企业可以通过简单的数据分析完成更多的工作。与统计和编码方面的专业知识相反,数据和业务方面的知识可能会让你会在大数据道路上走的比你想象中的更远。
六、深度学习变得更扎实
深度学习带来了前所未有的颠覆力,为人工智能的高速发展鉴定了基础。截止目前,这一势头没有丝毫的减弱迹象。企业继续尝试像TensorFlow、Caffe、Keras、PyTorch 和 MXnet 这样的深度孥习框架,以寻求将大量数据集实现商业化。企业将把深度学习扩展到最初的用例之外,比如计算机视觉和自然语言处理(NLP),并找到实现这种强大技术的新方法。大型金融机构已现,神经网络算法在识别欺诈方面比“传统”机器学习方法更有效,对于新用例的掌卧将在 19 年继续前行。
七、Kubernetes 扩展趋势明显
软件定义世界,而操作系统可以控制软件。对于开发人员来说,Kubernetes 可以编排大数据的底层应用。Kubernetes来源于谷歌,用于管理和编排云中的虚拟Linux容器,它已经成为大数据生态系统中最热门的技术之一。当多云和混合部署变得越来越普遍,Kubernetes是将所有应用结合在一起的粘合剂。
大数据软件供应商曾经把软件运行在 Hadoop 上,现在却想办法运行在 Kubernetes 上。可以说,支持 Kubernetes,已经成为软件供应商的首要需求,甚至包括 Hadoop 供应商。
八、云安全不容忽视
云市场很大,而且越来越大。18年,三大公有云供应商的增长率接近50%。尤其在有了大量的大数据工具、技术以及廉价的存储空间之后,云更成为最佳选择。到19年,会有越来越多的小型企业和初创企业成为主流的公有云提供商的客户,这些云提供商正投入大笔资金建设随时可运行的大数据平台,其中包括自动学习、机器学习、分析数据库和实时流分析等。未来,规模较大的公司也会发现云计算难以抗拒,他们可能看重的不只是成本。目前,这些大公司上云的阻力依然是安全问题。
九、新技术将会出现
当今推动创新的许多主流大数据框架和数据库都是由硅谷的网络巨头创建的,并作为开源软件发布。没有迹象表明大数据发展有什么不好的消息,如果非要说有什么不同的话,那就是大数据创新正在加速。19年,大数据技术人员最好能在他们的大数据平台架构中保留尽可能多的灵活性。由于性能的原因,我们很容易将应用程序与特定的技术结合起来,但是当出现更好更快的技术时,这可能会让我们陷入另外一个坑。所以,尽可能保持应用程序的松耦合状态,但又不失紧密集成的能力,因为最终必须将原有的系统拆分并重新构建。
十、大数据将推动智慧地球的发展
如今,智能设备正不断地收集数据,并已遍布于我们的周围环境。在消费者需求的驱动下,智能设备正以惊人的速度激增。在亚马逊 Alexa 和谷歌 Assistant 这两大领先平台上,智能设备生态系统如雨后春笋般涌现,为消费者提供了将远程访问和人工智能融入照明、暖通系统、门锁和家电等一切事物的机会。
在5G无线网络的推动下,如今在智能家居领域所发生的一切,将很快在全球范围内发生。消费者将能够与多种设备交互,在我们所到之处提供新的个性化服务。
总之,2019年,大数据将在多个领域取得进展。虽然大数据和人工智能带来了大量的技术挑战、法律问题和伦理障碍,但大数据带给世界的好处实在太大,不容忽视。