云计算助力大数据分析
前记:这是我老婆随手写的一篇文章,结合了她当前的分析工作和云计算,介绍了云计算对大数据分析的助力。
在互联网后时代,数据分析已经成为企业保持竞争力的必要方法。企业在成长和发展的过程中积累了海量的数据,这些历史数据不管是通过纸质媒介,还是通过硬盘记录下来,都是企业宝贵的数据资产。对数据进行数字化处理,创建数据仓库,训练数据模型,然后使用一定的分析方法,从数据中挖掘出用户的行为和偏好,发现对决策有潜在价值的关系、模式和趋势,帮助企业的管理层做出更有效的决策。而数据分析还能够根据企业经营的数据,监控企业经营的指标,进而量化企业的管理,这都体现出大数据的巨大商业价值。
目前,离开高质量的数据,很难有企业仍然可以高效运行,各企业都依赖于它们的数据资产以做出更为明智和有效的决策。事实上,市场领导者正利用数据资产,通过丰富的客户资料、信息创新和高效运营取得竞争优势。企业通过数据资产,针对性地向客户提供更好的产品和服务,这样不仅可以降低成本,控制风险,还能精准定位问题,发现商机。随着企业对数据需求的不断增长,以及企业对数据的依赖性不断增强,人们越来越清楚地意识到数据资产的商业价值。
那么数据分析的价值有多大呢?离开数据分析,许多企业都不能进行有效的市场分析、比较类似产品的顾客反馈、发现竞争对手的优势和缺点、留住高价值的顾客、做出聪明的决策等。从数据中获取价值如此重要,以至于几乎所有的企业都在做数据分析,但是,大数据的存储、提取、处理和分析都是非常耗费财力、物力和人力的。如果不能使用最低的成本获得到数据中隐藏的价值,企业同样活不下去。
云计算是一个降低数据分析成本的创新技术,它通过一体化、自动化、智能化的IT系统,将传统运维工作中的大量简单、重复性的手工工作通过软件实现,使运维人员有更多精力、条件,投入到整个服务生命周期当中。云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机技术和网络技术发展融合的产物,旨在通过网络把很多个成本相对较低的计算实体整合成一个具有强大计算能力的完美系统,并借助SaaS、PaaS、IaaS、MSP等先进的商业模式把这强大的计算能力分布到终端用户手中。云计算的一个核心理念就是通过不断提高“云”的处理能力,进而减少用户终端的处理负担,最终使用户终端简化成一个单纯的输入输出设备,并能按需享受“云”的强大计算处理能力。 云计算的核心思想,是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池向用户按需服务。通俗来说,云计算其实就是让计算、存储、网络、数据、算法、应用等软硬件资源像电一样,随时随地、即插即用。鉴于云计算兼顾存储容量大、计算力强、安全、服务全面、弹性扩展、部署简便、即插即用和费用低廉等明显的优势,云计算已经成为把企业的大数据变成商机的首选方法。
从数据中洞察商机、提取价值,并不是一件容易的事,跟企业的数据、资源和人力有很大的关系。企业积累的原始数据,随着企业的发展和业务的增加,数据量持续增加,这增加了读取和处理数据的难度;由于各种原因,比如,人为的录入错误,系统出现异常,数据源异构等原因,导致企业的数据出现缺失、不一致、数据异常等问题,这些脏数据不仅会降低数据的质量,还会影响数据分析的结果。那么,云计算是如何帮助企业把一堆堆杂乱信息转化成经济效益的呢?
云技术支持海量数据的存储。进入信息化时代之后,数据量在不断的增长,TB、PB级别的数据量已经司空见惯,这么大的数据量已经超出了单台小型服务器的处理上限,相应地,企业维护如此海量数据的成本也成指数级上升。企业应付数据量激增的传统的做法是采购大量的硬件设备,招聘更多的专业技术人员,搭建网络系统以支持数据的存储和处理,这不仅会耗费企业巨大的财力、人力和时间,还会增加系统维护的成本,在短期内给企业造成很大的经济负担。而云计算天生具备大数据的存储能力,或者说,云计算就是为了处理大数据而诞生的。当遇到数据量激增时,企业使用云计算的弹性扩展服务,可以按需扩展系统的数据存储能力。
云计算支持对海量数据的快速读取和处理。存储数据的目的是为了提取数据,并且不是所有的数据都能直接用于数据分析,因此,在分析数据以获得有商业价值的分析结果之前,必须对数据做适当的处理。当数据量达到PB级别时,传统的数据读取技术不仅非常耗费时间,而且非常耗费系统的内存、计算和网络资源。在面对海量数据时,如果提取、处理和利用数据的成本超过了数据价值本身,那么有价值也相当于没价值。云计算拥有强大的数据处理能力,其分布式的、可扩展的设计能够应对海量数据的处理任务,比如,异常数据的处理、离群点的分析、数据质量的分析等。对于企业而言,云计算可以提供按需扩展系统的计算力和内存资源的服务,以低廉的价格实现大数据的提取和处理,为分析海量数据提供了可能性。
云计算对资源的管理是弹性的。数据分析跟企业的日常事务相比,属于低频操作,但它对系统内存、计算力和带宽的消耗是十分巨大的。如果企业为了某一次或某几次的数据分析任务,而花费重金升级硬件设备,那么这会导致大量设备的闲置,降低资金的回报率。在这种情况下,使用云计算是应付大数据分析任务的不二之选,因为云计算服务管理的资源是弹性的,数据分析需要的资源,想什么时候要就什么时候要,想要多少就有多少;在不需要这些资源时,企业不需要为这些资源额外付费。当前,公有云技术已经十分成熟,国内最好的公有云平台是阿里云。阿里云提供按时、按量计费的服务,这使得企业能够以最低的成本获得数据分析的结果。企业不需要采购硬件、搭建网络、招聘专业人员,只需要购买服务,就可以用多少资源,付多少钱。
云计算的即插即用。云计算不再是高冷的技术,它已经成为提供资源的基础服务。绝大多数企业不再需要耗费时间、金钱和精力去搭建自己的网络系统,也不需要去关注技术的实现细节,只需要一根网线接入云,就能享受云计算的强大马力。云计算的便利性,使得数据分析不再局限于底层资源,企业只需要关注业务层面上的分析。
云计算提供的算法可高效分析数据。从大量数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,这是数据分析的价值所在。从数据的巨大矿坑中发现微小的金子,不仅需要硬件支持,还需要算法的协助。云计算不仅管理资源,还管理算法。云计算平台上管理着大量的通用算法和数据集,企业只需要支付少量的费用就可以直接使用,这就为大数据分析提供强大的算法支持,避免了二次开发,使得数据分析更加快速和高效。
云计算是十分安全的,云计算平台都有专门的安全团队,负责保护企业的数据资产不会丢失和泄露。大数据是数据分析的养分,如果数据丢失,这会直接导致数据分析的结果失真,甚至影响企业的正常运营;而敏感数据的泄露,甚至会导致企业的破产清算。很多客户担心公有云的安全问题,不管是数据泄露的风险,还是停止服务的风险,公有云都远远小于自己架设的机房。云计算依托大型数据中心、规模化应用和强大的运维体系等优势环节,让云主机的可靠性远超传统小型数据中心,因此,企业不需要担心数据的丢失,泄露等风险。云上的数据是十分安全的,使得数据分析的结果是可信的。
云计算的上述优点,使得云计算成为除水、电、煤气之外的另一个重要的公共基础设置服务。云计算助力数据分析,使得企业不需要关注数据的存储和计算等资源,可以把更多的精力投放到数据的分析和业务的优化上,以获得更多有价值的信息、提高企业的竞争力。