前几个月,我参加听取了IBM、Teradata、ORACLE、安永这些数据巨头公司有关银行业应用系统发展情况的介绍,感触很深。我得出的一个结论:以海量数据为标志的数据分析时代已经来临了。我感到有必要把自己对此的感触写出来与大家分享和交流。
在此之前,我们虽然一直在开发和使用一些数据分析类系统和产品,并没有太在意数据量大小,而是关心业务需求和系统功能,也没有想过海量数据会给我们这些开发人员带来根本性的观念上的转变。原来我们一个应用系统一般都是几百M的数据,多的也就是几百个G,现在一个应用系统上T的数据都是很平常的事。这些还都是一些文字类的数据,一些票据影像类的数据一年都可能有50T以上。因此,无论是在数据的深度和广度都和现在以及未来都是不可相提并论的。但是,通过他们的介绍我感到海量数据的出现意味信息时代到了一个新的阶段。
第一,海量数据出现首先表现在银行的发展上。无论从四大国有银行还是几家大的股份制银行,还是其他银行,总体上来看,这几十年,银行业是随着中国经济整体发展而发展的。银行如果没有发展,也就没有海量数据。有了海量数据意味着企业客户数在增加、客户的交易量在增加、金融产品的数量在增加、金融服务数量在增加、金融监管在增加、风险控制在增加、银行内部管理越来越精细化等等。这些增加反应了银行的利润在增加、银行的规模在增加,最终反应了银行的发展。
第二,海量数据出现表明银行信息化发展到一个新的阶段。银行发展了,导致和促使银行发展的原因之一就是银行业的信息化发展。近20多年的银行业信息化,从无到有,从分布到集中、从业务系统到管理信息系统、从统计报表到数据分析,从数据分析到决策支持,银行信息化就是这样走过来的。正是银行业信息化的发展,才导致大量数据的出现,从某种层面上我们可以说数据量越大说明这个银行的信息化程度就越高。
第三、海量数据是银行另一类的资产。海量数据的出现,并不仅仅是银行信息化的形式上的结果。同时,海量数据的出现,也打破了银行单一依靠存贷、中间业务获取利差和手续费获得利润方式。海量数据本身就是银行的另一类资产,这个资产可以用来减少银行的各项成本、开发新的金融产品、避免各种风险、提高金融产品的盈利。当然,在数据量很少的情况下,这种资产价值很难得到体现。
第四、针对海量数据的数据分析是银行进一步发展的客观需要。中国的银行业在目前这种状况要想进一步发展,难度会很大,比如同业的竞争,市场份额的增减、中国经济整体形式的状况、国际经济大环境的影响。但是,信息化绝对是促使银行业进一步发展的一个重要的方面。信息化可以有效地方便客户使用各种金融产品、满足客户的金融产品和服务的要求,使得银行获得更多的收入,同时信息化也可以帮助银行进行各种客户分析、产品分析、客户分析、员工绩效分析、成本分析使得银行降低运营成本和管理成本,另外,信息化还可以在新产品设计、决策支持和战略规划等方面发挥重要作用。而这些信息化一定是建立在海量基础上的。如果没有海量数据,这些信息化功能可能在局部有效,但是从整体上来看,其成效是不大的。这就就如同瓜不熟不甜的道理一样。而建立在海量数据基础上的数据分析恰恰就能在这些方面发挥其重要的作用。
第五、海量数据的出现推动了数据分析技术的发展
海量数据的处理最大的二个问题是数据存放和数据处理效率。原来我们的一个应用系统的数据一般只有几个G,几十个G,最多也就是几百个G,我们的数据库一张表的记录数百万级、最多是千万级。原先我们编写的以秒级为效率的程序和系统,由于数据量的增大,可能出现以分级、小时级甚至天级的程序和效率。而到目前为止,硬盘存储还是一种主流的方式,几十年的发展存取效率并没有根本性提高。我们除了把一些数据放到内存处理以获得较高的效率外,我们不得不在低速的磁盘上规划我们的数据存储,通过规划数据存储以达到数据处理效率的提高。因此,围绕着数据存储、围绕着数据处理效率,各大数据库厂商提出了各种海量数据解决方案。以保证数据的备份、安全、存取的快捷。
从另外一个角度来看,更多数据分析关注是对银行经营的各个方面如何建立业务模型,因为只有业务模型才能给企业经营带来直接的体验和利润。而银行通过这么多年的发展,逐步地找到业务模型的对象,诸如:客户、产品、业务、风险、安全、利率、等等。在这些对象中,我们可以建立客户分析模型、产品分析模型等等。这些模型的建立可以为使得银行经营分析和决策更加快捷和科学。因此,很多软件公司会把银行业尤其是国外银行业中的成熟业务模型作为数据分析产品到中国来推广。
还有软件公司则不是从业务模型出发建立一套基于业务模型的银行数据分析系统,而是致力于一些数据分析工具研发。通过提供一些共性的数据分析模型,以帮助银行自身建立各种模型的需要。
当然,数据分析离不开数据库,很多数据库也在提供那些通用的、基础的数据分析功能。不少数据库厂商也在海量数据处理方面也做了不少改进和提升。
结论:我们是从银行业感觉到数据分析时代来临的,其实在其他领域和行业,诸如互联网企业、电信行业更是海量数据,有的甚至超过上百T。这些海量数据正是企业数据分析的对象,在这海量数据大金矿中,我们用什么工具,用什么方法,在什么地方,挖出多大的金块才是我们所关心的。因此,程序员要意识到一个新的时代的来临,意识到数据分析的重要性,让我们在理念、业务、技术、项目上多做一些准备,在海量数据推到我们面前的时候,也许我们程序员才是这个大金矿中收获最大的淘金者。
附:我在新浪微博开辟了名为“EOM与程序员之家”我的技术微博,记录着我每天在技术上点点滴滴,有想法、有编程,希望大家关注和交流。http://weibo.com/2311619842