大数据的3V和三个层面

张亚勤表示，大数据具有高容量、高速度、多类型等“3V”的特点，应用大数据发挥价值包括数据的管理、数据的扩充、数据的呈现三个层面。

大数据的3V

　　张亚勤表示，讲到大数据3个V，一个是Volume，数据容量越来越大，第二个是 Velocity，数据量增长越来越快，需要处理的速度和响应的时间越来越快，对系统的延时要求相当高。第三个就是各种各样类型的数据，过去的数据更多的是结构化的，现在越来越多的数据是半结构，甚至是完全没有结构的数据，从企业里来的、从互联网来的，从用户来的各种各样的数据都大量进入我们的服务器、进入数据中心，所以这里面产生了很多的挑战，这么多数据怎么样把它变成信息，怎么样把信息变成知识，把知识变成决策，这就需要有更多的很好的数据处理能力。

　　面对这样的挑战，张亚勤认为，我们需要更多人从事一个叫数据科学家的职业，这些人需要有计算机科学的背景，需要有很强的数学背景，也需要有很强的统计学背景，要对大量的数据进行这样的处理、逻辑的分析和结构化的呈现。

　　挖掘大数据价值的三个层面

　　张亚勤表示，大数据包括三个层面。首先是数据的管理，对各种来自不同的地方、不同的大小的数据，都进行采集和管理，这里面有实时的数据，也有非实时的数据。第二个层次，是数据的扩充，怎么样去挖掘、推荐、转换、清洗、按摩、分享和控制，这就是传统的ETL流程。第三个层次，就是怎么样把数据很好地呈现出来，用好的工具，大家获得更直觉的洞察力。

　　微软的数据平台根据这样的职能，也分成三个不同的层次。这里面比较重要的，就是我们可以接收各种各样的数据，在物理层次，有企业的、有IOT传感器的、有从网络里面经过爬虫收集的数据。有了这些数据之后，根据数据不同的种类，如果是企业数据，我们有微软的数据仓库来进行处理。如果这个数据也可以到公有云，也可以到私有云，那我们支持大数据的平台是基于Hadoop，Hadoop是开源平台。在处理之后，上面是商业的智能平台，当然，最上面一层是好的可视化呈现的工具，包括 PowerView等等，就可以消化这些数据。

　　不过，张亚勤表示，谈到大数据，我们就遇到一个挑战，Hadoop可能对于处理大数据很有效，但是对流数据、实时的数据就不太有效，所以微软开发了对于半实时、或者实时的软件，这个流数据可以去实时地处理。这里面对于数据库的要求都完全不一样，所以，我们要有大量处理并行数据、流数据的能力。

posted @ 2013-10-31 19:15 BinbinChen 阅读(12192) 评论(0) 收藏举报

刷新页面返回顶部

大数据的3V和三个层面

公告