为大数据时代做好准备——来自《大数据的冲击》一书精彩片段(转)

需求高涨的数据科学家

从技术方面来看,硬盘价格下降,NoSQL数据库等技术的出现,使得和过去相比,大量数据能够以廉价高效的方式进行存储。此外,像Hadoop这样能够在通用性服务器上工作的分布式处理技术的出现,也使得对庞大的非结构化数据进行统计处理的工作比以往更快速且更廉价。

然而,就算所拥有的工具再完美,它本身是不可能让数据产生价值的。接下来我们还需要能够运用这些工具的人才,他们能够从堆积如山的大量数据中找到金矿,并将数据的价值以易懂的形式传达给决策者,最终得以在业务上实现。具备这些技能的人才,就是在大数据浪潮如火如荼的美国目前正千金难求的“数据科学家”。

对数据科学家的关注,源于大家逐步认识到,Google、Amazon、Facebook等公司成功的背后,存在着这样的一批专业人才。这些Web公司对于大量数据不仅仅是进行存储而已,而是将其变为有价值的金矿——例如,搜索结果、定向广告、准确的商品推荐、可能认识的好友列表等。

数据科学(data science)是一个很久之前就存在的词汇,但数据科学家(data scientist)却是几年前突然出现的一个新词。关于这个词的起源说法不一,其中在《数据之美》(Beautiful Data,Toby Segaran、Jeff Hammerbacher编著,O’Reilly出版 )一书中,对于Facebook的数据科学家,有如下叙述。

“在Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了‘数据科学家’这种角色。”

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后10年IT行业最重要的人才”了。

Google首席经济学家,加州大学伯克利分校教授哈尔•范里安(Hal Varian,1947~)先生,在2008年10月与麦肯锡总监James Manyika先生的对话中,曾经讲过下面一段话(中文版节选自麦肯锡季刊官方中文稿) 。 “我总是说,在未来10年里,最有意思的工作将是统计学家。人们都认为我在开玩笑。但是,过去谁能想到电脑工程师会成为上世纪90年代最有趣的工作?在未来10年里,获取数据——以便能理解它、处理它、从中提取价值、使其形象化、传送它——的能力将成为一种极其重要的技能,不仅在专业层面上是这样,而且在教育层面(包括对中小学生、高中生和大学生的教育)也是如此。由于如今我们已真正拥有实质上免费的和无所不在的数据,因此,与此互补的稀缺要素是理解这些数据并从中提取价值的能力。”

范里安教授在当初的对话中使用的是“statisticians”(统计学家)一词,虽然当时他没有使用“数据科学家”这个词,但这里所指的,正是现在我们所讨论的数据科学家。

数据科学家所需的技能

数据科学家这一职业并没有固定的定义,但大体上指的是这样的人才。

“所谓数据科学家,是指运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才。”数据科学家所需的技能如下。

(1) 计算机科学

一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。

(2) 数学、统计、数据挖掘等

除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。

(3) 数据可视化(Visualization)

信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。

作为参考,下面节选了Facebook和Twitter的数据科学家招聘启事。对于现实中的企业需要怎样的技能,应该可以为大家提供一些更实际的体会。

Facebook对数据科学家的招聘信息

Facebook计划为数据科学团队招聘数据科学家。应聘该岗位的人,将担任软件工程师、量化研究员的工作。理想的候选人应对在线社交网络的研究有浓厚兴趣,能够找出创造最佳产品过程中所遇到的课题,并对解决这些课题拥有热情。

职务内容

 确定重要的产品课题,并与产品工程团队密切合作寻求解决方案
 通过对数据运用合适的统计技术来解决课题
 将结论传达给产品经理和工程师
 推进新数据的收集以及对现有数据源的改良
 对产品的实验结果进行分析和解读
 找到测量、实验的最佳实践方法,传达给产品工程团队

必要条件

 相关技术领域的硕士或博士学位,或者具备4年以上相关工作经验
 对使用定量手段解决分析性课题拥有丰富的经验
 能够轻松操作和分析来自各方的、复杂且大量的多维数据
 对实证性研究以及解决数据相关的难题拥有极大的热情
 能对各种精度级别的结果采用灵活的分析手段
 具备以实际、准确且可行的方法传达复杂定量分析的能力
 至少熟练掌握一种脚本语言,如Python、PHP等
 精通关系型数据库和SQL
 对R、MATLAB、SAS等分析工具具备专业知识
 具备处理大量数据集的经验,以及使用MapReduce、Hadoop、Hive等分布式计算工具的经验
来源:Facebook(中文翻译出自译者)

Twitter对数据科学家(负责增加用户数量)的招聘信息

关于业务内容

Twitter计划招聘能够为增加Twitter用户数提供信息和方向性,具备行动力和高超技能的人才。应聘者需要具备统计和建模方面的专业背景,以及大规模数据集处理方面的丰富经验。 我们期待应聘者所具有的判断力能够在多个层面上决定Twitter产品群的方向性。

职责
 使用Hadoop、Pig编写MapReduce格式的数据分析
 能够针对临时数据挖掘流程和标准数据挖掘流程编写复杂的SQL查询
 能够使用SQL、Pig、脚本语言、统计软件包编写代码
 以口头及书面形式对分析结果进行总结并做出报告
 每天对数TB规模、10亿条以上事务级别的大规模结构化及非结构化数据进行处理

必要条件

 计算机科学、数学、统计学的硕士学位或者同等的经验
 2年以上数据分析经验
 大规模数据集及Hadoop等MapReduce架构方面的经验
脚本语言正则表达式等方面的经验
 对离散数学、统计、概率方面的兴趣
 将业务需求映射到工程系统方面的经验
来源:Twitter(中文翻译出自译者)

数据科学家所需的素质

这一节的内容与技能部分有所重叠,数据科学家所需要具备的素质有以下这些。

(1) 沟通能力
即便从大数据中得到了有用的信息,但如果无法将其在业务上实现的话,其价值就会大打折扣。为此,面对缺乏数据分析知识的业务部门员工以及经营管理层,将数据分析的结果有效传达给他们的能力是非常重要的。
(2) 创业精神(entrepreneuership)
以世界上尚不存在的数据为中心创造新型服务的创业精神,也是数据科学家所必需的一个重要素质。Google、Amazon、Facebook等通过数据催生出新型服务的企业,都是通过对庞大的数据到底能创造出怎样的服务进行艰苦的探索才获得成功的。
(3) 好奇心
庞大的数据背后到底隐藏着什么,要找出答案需要很强的好奇心。除此之外,成功的数据科学家都有一个共同点,即并非局限于艺术、技术、医疗、自然科学等特定领域,而是对各个领域都拥有旺盛的好奇心。通过对不同领域数据的整合和分析,就有可能发现以前从未发现过的有价值的观点。
美国的数据科学家大多拥有丰富的从业经历,如实验物理学家、计算机化学家、海洋学家,甚至是神经外科医生等等。也许有人认为这是人才流动性高的美国所特有的现象,但其实正如我们在第4章中所介绍的GREE一样,在日本也出现了一些积极招募不同职业背景人才的企业,这样的局面距离我们已经不再遥远。

严重的人才匮乏

数据科学家需要具备广泛的技能和素质,因此预计这一职位将会陷入供不应求的状态,即遇到人手不足的困境。例如,麦肯锡全球研究院(MGI)在2011年5月发表的题为“Big data: The next frontier for innovation, competition and productivity”(大数据:未来创新、竞争、生产力的指向标)的报告中指出,在美国具备高度分析技能的人才(大学及研究生院中学习统计和机器学习专业的学生)供给量,2008年为15万人,预计到2018年将翻一番,达到30万人。然而,预计届时对这类人才的需求将超过供给,达到44万~49万人的规模,这意味着将产生14万~19万的人才缺口。
仅仅四、五年前,对数据科学家的需求还仅限于Google、Amazon等Web类企业中。然而在最近,重视数据分析的企业,无论是哪个行业,都在积极招募数据科学家,这也令人手不足的状况雪上加霜。
大型IT厂商EMC在2011年12月发表的一份关于数据科学家的调查报告“EMC Data Science Study”中提出了一些非常有意思的见解。

该调查的对象包括美国、英国、法国、德国、印度、中国的数据科学家,以及商业智能专家等IT部门的决策者,共计462人。除此之外,EMC还从2011年5月在拉斯维加斯召开的“数据科学家峰会”的参加者,以及在线数据科学家社区Kaggle中邀请了35人参加这项调查。该调查结果的要点如下。

首先,三分之二的参加者认为数据科学家供不应求。这一点与前面提到的麦肯锡的报告是相同的。 对于新的数据科学家供给来源,有三分之一的人期待“计算机科学专业的学生”,排名第一,而另一方面,期待现有商业智能专家的却只有12%,这一结果比较出人意料(图表8-6)。也就是说,大部分人认为,现在的商业智能专家无法满足对数据科学家的需求。

数据科学家与商业智能专家之间的区别在于,从包括公司外部数据在内的数据获取阶段,一直到基于数据最终产生业务上的决策,数据科学家大多会贯穿数据的整个生命周期。这一过程中也包括对数据的过滤、系统化、可视化等工作

研究生院的成立

随着对大数据分析需求的高涨,未来必将带来数据科学家的严重不足,为了解决这一问题,美国一些大学已经开始成立分析学专业的研究生院。

位于伊利诺伊州芝加哥郊外埃文斯顿市的美国名牌私立大学——西北大学(Northwestern University),就是其中之一。西北大学决定从2012年9月起在其工程学院下成立一个主攻大数据分析课程的分析学研究生院,并开始了招生工作。西北大学对于成立该研究生院是这样解释的:“虽然只要具备一些Hadoop和Cassandra的基本知识就很容易找到工作,但拥有深入知识的人才却是十分缺乏的。”

此外,该研究生院的课程计划以“传授和指导将业务引向成功的技能,培养能够领导项目团队的优秀分析师”为目标,授课内容在数学、统计学的基础上,融合了尖端计算机工程学和数据分析。课程预计将涵盖分析领域中主要的三种数据分析方法:预测分析、描述分析(商业智能和数据挖掘)和规范分析(优化和模拟),具体内容如下。

(1) 秋学期
 数据挖掘相关的统计方法(多元Logistic回归分析、非线性回归分析、判别分析等)
 定量方法(时间轴分析、概率模型、优化)
 决策分析(多目的决策分析、决策树、影响图、敏感性分析)
 树立竞争优势的分析(通过项目和成功案例学习基本的分析理念)

(2) 冬学期
 数据库入门(数据模型、数据库设计)
 预测分析(时间轴分析、主成分分析、非参数回归、统计流程控制)
 数据管理(ETL(Extract、Transform、Load)、数据治理、管理责任、元数据)
 优化与启发(整数计划法、非线性计划法、局部探索法、超启发(模拟退火、遗传算法))

(3) 春学期
 大数据分析(非结构化数据概念的学习、MapReduce技术、大数据分析方法)
 数据挖掘(聚类(k-means法、分割法)、关联性规则、因子分析、存活时间分析)
 其他,以下任选两门(社交网络、文本分析、Web分析、财务分析、服务业中的分析、能源、健康医疗、供应链管理、综合营销沟通中的概率模型)

(4) 秋学期
 风险分析与运营分析的计算机模拟
 软件层面的分析学(组织层面的分析课题、IT与业务用户、变革管理、数据课题、结果的展现与传达方法)
 毕业设计

在成立研究生院的同时,IT厂商也积极开展合作。IBM不仅赞助了4万美元,还发表声明承诺免费提供其预测分析软件SPSS,并对硬件采购提供优惠。作为SPSS的竞争对手,同样开发预测分析软件的SAS以及数据仓库厂商Teradata也将提供必需的产品以及产品使用培训等方面的赞助和支持。

由于2012年1月就任的IBM首位女性CEO弗吉尼亚•罗曼提(Virginia Rometty,1958~)女士曾在西北大学取得了计算机科学的学士学位,并现任该校理事,因此IBM在与西北大学的合作方面十分投入,除了硬件和软件,还声明将在课程开发、案例研究等教材开发方面提供帮助。考虑到IBM最近在大数据以及分析业务上的发力,这一举措无疑是希望西北大学能够成为将来其分析人才的供应来源。

日本也开始了对数据科学家的争夺

在日本,随着大数据的运用水平逐步提高,也会和美国一样产生人才不足的问题。因此,需要以政府为主导,采取对高等教育进行重新规划等中长期的举措。

然而,我们经常说“云计算接下来就是大数据”,对于想要尽早确立大数据相关业务的系统集成商来说,即便达不到“数据科学家”的水平,也必须要尽快获得具备数据分析能力的专业人才,形势可谓时不我待。 进入2012年以后,这一动向变得更加活跃。例如,NEC于2012年2月宣布加强大数据业务 :“在公司内部培养或合作培养精通客户的业务并能够提出解决方案的领域专家和数据分析专家。今后三年中计划将团队规模扩大到200人。”

在NEC发表声明仅仅两天之后,NTT Data宣布收购拥有约70名商业分析专业人才,从事分析咨询业务的株式会社数理系统(Mathematical Systems, Inc.),引发了IT业界的强烈震动。NTT Data通过这一收购,使得其“商业分析专业人才达到90人”,并且还宣布“在2012年中继续扩充10人,计划达到100人”。 系统集成商的这些行动,无疑是瞄准了“为难以获得数据分析专业人才的用户企业提供支持”这一商机。 另一方面,已经着手进行大数据运用的一部分先进的日本企业,为了获得具备高度技能的人才,已开始将触手伸向了海外。例如,在公司内部新成立“大数据部门” ,一直以来就致力于大数据分析的乐天,已经开始在全世界范围内招贤纳士了。该公司执行董事,乐天技术研究所所长森正弥先生,对其理由是这样阐述的:“具备能够在Hadoop集群上实现机器学习算法这样高技能的人才,在国内难以获得,从结果来看,我们招聘的人才中有九成都是外国人。”

管理超过9000万件商品,拥有约7000万人会员的乐天,除了商品和会员的属性数据、会员购买记录、商品评价、排名信息等数据之外,还拥有像点击流数据、搜索日志等,总计达数百TB级别的数据。尤其是很多各地的中小企业都在乐天上开店,“像各地商品信息等非结构化数据非常之多”(森正弥)。因此,乐天从很早就开始自行开发Hadoop这样的分布式处理框架和NoSQL数据库等技术,连美国Web类企业也感到惊讶不已。也正是因此,相比现在才开始考虑培养数据分析专家的系统集成商来说,乐天理所当然地已经处于遥遥领先的地位。 近年来,乐天开始积极推进在台湾、印度尼西亚、泰国、法国、美国等地的全球化业务。想想看,对于致力于全球化的企业来说,已经没有理由将招贤纳士的范围仅仅局限在日本国内了。对于以大数据为武器真正追求全球化的企业来说,要在短期内解决数据科学家缺乏的问题,也许有更多的企业会采取引进海外人才的举措。

最后的问题:组织结构和企业文化

有了高质量的数据和对其进行高效处理的IT基础架构,再加上优秀的数据科学家,最后就看组织结构和企业文化了。即便能够得到优秀的分析结果,如果没有能够形成准确决策和迅速行动的组织机构,则一切都是徒劳。当分析结果与经验直觉相违背的时候,如果企业的文化中无条件地看重经验直觉,那么数据分析就会变得毫无意义。 在阐述数据分析有用性的名著《以分析力为武器的企业》(Competing on Analytics,Thomas H. Davenport、Jeanne G. Harris著,村井章子译,日经BP社出版) 的序言中,就介绍了本书第1章所提到的Harrah’s Entertainment的董事长、总裁兼首席执行官Gary Loveman先生所说的一席话。 这里所说的分析管理绝对还谈不上与分析方法、数据的可获得性或者技术什么关系。(中略)……分析管理存在一些普遍的问题,例如:

 盛行的传统思想往往与有权势的人联系在一起,这些思想往往无须通过重要的测试就能一直沿用下去。
 决策,特别是高管层的决策,不仅仅是没能进行严格的、不带偏见的分析,而且那种不加分析的做法还大行其道,其根本原因在于这种做法被认为是高管层具备稀罕的天赋,人们认为这是这种天赋使企业领袖和有远见卓识的领导有别于虽然聪明但灵感不足的人。
 企业中缺乏那些勤于而且精于数据分析工作的人。人们总是把数据分析工作看成是最后的解决办法,而且往往从事分析的人并不熟悉恰当的分析方法。
 情况往往是由人决定思想,而非由思想掌控人。

怎么样?Loveman先生提出的这些问题,是不是击中了很多企业的要害?招募优秀的数据科学家固然重要,但与此同时,千万不能忘记对经理及高管层的培养,使他们能够凭借数据科学家所得到信息做出准确的决策和行动。

目标:成为数据驱动型企业

能够将数据分析的结果以及其中所得到的信息及时反映到业务中以树立竞争优势地位的企业,在欧美被称为“数据驱动型企业”(Data Driven Enterprise)。

为了成为数据驱动型企业,需要培养永远基于数据进行决策的企业文化。在需要做出判断的时候,形成总是要求提供数据佐证的氛围是非常重要的。作为数据驱动型企业代表的Google中,每当提出一个新的想法时,都必然会被问及“是否经过测试,是否有数据佐证”这样的问题 。

当然,通往数据驱动型企业的道路并非一马平川,值得探讨的要点有很多,例如创造一个不仅只有一部分分析团队和管理层,而是任何员工都可以访问的数据环境,以及能够将分析结果迅速在业务上实现的组织结构等等。 本书中一直反复强调,所谓“大数据”并不是单纯指数据量的增加。通过对过去不曾运用的或无法运用的多种多样的数据进行适当的收集,虽然从结果上来看,可能会形成大量的数据,但并不是说数据量一定要达到数TB甚至数PB才能算是大数据,最重要的是要发现曾经忽略的数据的价值。

 

1、精通一门编程语言

2、精通SQL

3、熟练掌握数理统计

4、熟悉数据挖掘算法

 

posted on 2013-12-29 13:09  gogoy  阅读(516)  评论(0编辑  收藏  举报

导航