大数据时代统计学面临的机遇与挑战
大数据时代的到来,
使我回想起上个世纪80年代大学时期非常流行的一本书:
- 《第三次浪潮》(The Third Wave)
美国著名未来学家阿尔温.托夫勒(Alvin Toffler)的代表作之一。阐述了由科学技术发展所引起的社会各方面的变化与趋势。1980年3月出版后,在美国文化思想界中特别引人注目。作者认为,人类社会正进入一个崭新的时期。这个事情名曰“第三次浪潮文明”。
人类迄今已经历了两次文明浪潮:
第一次是“农业革命”,即人类从原始野蛮的渔猎时代进入以农业为基础的社会,历时几千年;
第二次是“工业革命”,历时300年。它摧毁了古老的文明社会,工业革命在第二次世界大战后10年达到顶峰。在第二次浪潮时期,以使用不能再生产的石化燃料作为能源基础,技术突飞猛进,出现大规模的销售系统,家庭不再是共同劳动的经济单位;
第三次浪潮时期,以电子工业、宇航工业、海洋工业、遗传工程组成工业群。社会进步不再以技术和物质生活标准来衡量,而以丰富多彩的文化来衡量。这个时代,鼓励个人人性发展,但不是创造某个理想的超人,而是培养一种新的社会性格。在第三次浪潮条件下发展新的民主,唾弃谬误和吓人的观念。“第三次浪潮文明”,是对未来社会设计的一种蓝图,其立足点是现代科技的发展,所阐述的内容反映了当代西方社会思潮的一些重要观点。
托夫勒(Alvin Toffler)在书中预见的未来是:跨国企业将盛行;电脑发明使SOHO(在家工作, Small Office, Home Office)成为可能;人们将摆脱朝九晚五工作的桎梏;核心家庭的瓦解;DIY(自己动手做)运动的兴起……时过境迁,如今我们才发现托夫勒的预言竟大多已成为了现实。
《第三次浪潮》是1980年的一本畅销全球的图书,作者托夫勒。
该书将人类社会划分为三个阶段:
第一阶段为农业阶段,从约1万年前开始;
第二阶段为工业阶段,从17世纪末开始;
第三阶段为信息化(或者服务业)阶段,从20世纪50年代后期开始。
托夫勒也许并没有给我们带来直接财富,但他给了人们一个梦想,多年以后,当年阅读托夫勒的年轻人已成为中国经济建设的中流砥柱,托夫勒的思想或多或少仍在指引着他们“创造未来”。
《第三次浪潮》一书持续热销二十年,被翻译成三十余种语言,全球发行上千万册。
“思想震撼至今不绝”。托夫勒的视角如此犀利独特,无人可及……他的著作就是一个解读人类现在和未来的永恒路标。
- 《大数据时代》
在“第三次浪潮”席卷全球三十年后,互联网技术的飞速进步和普及,人类社会进入信息“爆炸”时期,从而催生大数据技术,大数据时代已经到来。
《大数据时代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think)是国外大数据研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”,有在牛津大学、哈佛大学、耶鲁大学、新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。他是十余年潜心研究数据科学的技术权威,是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。他的学术成果斐然,有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上。
维克托·迈尔·舍恩伯格在书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
本书认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。
《大数据时代》目录
引言: 正在发生的生活、工作与思维的大变革
第一部分 大数据时代的思维变革
第1章 更多:不是随机样本,而是所有数据
第2章 更杂:不是精确性,而是混杂性
第3章 更好:不是因果关系,而是相关关系
第二部分 大数据时代的商业变革
第4章 数据化:一切皆可“量化”
第5章 价值:“取之不尽,用之不竭”的数据创新
第6章 角色定位: 数据、技术与思维的三足鼎立
第三部分 大数据时代的管理变革
第7章 风险:让数据主宰一切的隐忧
第8章 掌控:自由与责任并举的数据管理
结语 已经发生的未来
《促进大数据发展行动纲要》
2015年8月31日,国务院以国发〔2015〕50 号印发《促进大数据发展行动纲要》。《纲要》指出,目前我国在大数据发展和应用方面已具备一定基础,拥有巨大市场优势和发展潜力。《纲要》明确提出5—10年大数据发展规划总体目标,制定了加快政府数据开放共享,推动资源整合等主要任务。
为贯彻落实党中央、国务院决策部署,全面推进我国大数据发展和应用,很多地方政府部门大数据建设规划纷纷出台,人民大学、复旦大学等大学也陆续开设《数据挖掘》、《R语言》等和大数据处理密切相关的课程,并开办数据分析、数据挖掘培训班、颁发证书以满足社会需求。
- 机遇与挑战
统计学(Statistics)是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。统计学从事各类科学研究工作所必须掌握的知识,是人们认识未知世界的有效工具。随着计算机技术的迅猛发展和普及,大量数据的处理技术变得很容易实现,这就使得很多统计方法在现实中的应用也变为可能。目前,统计学技术方法日益渗透到数据挖掘、计算机技术以及社会经济各专业研究领域。
在网络信息化时代,凡是人们用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。步入大数据时代,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据,数据的含义已经大大超出传统范畴,数据处理理论、方法、手段日新月异。
目前,大数据被广泛应用于医疗、通信、互联网企业、能源、市场营销、金融及社交娱乐等领域。随着大数据应用越来越广泛,对数据分析人才的需求也会与日俱增!
统计专业毕业不意味着你就是市场所需要的数据分析人才。实践工作中的统计工作者或数据分析师指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。与传统的数据分析相比,互联网时代的数据分析面临的不是数据匮乏,而是数据过剩。因此,互联网时代的数据分析师必须学会借助技术手段(计算机)进行高效的数据处理。
“统计学方法+计算机软件+实践经验=数据分析”
这是一个用数据说话的时代,也是一个依靠数据竞争的时代。目前世界500强企业中,有90%以上都建立了数据分析部门。IBM、微软、Google等知名公司都积极投资数据业务,建立数据部门,培养数据分析团队。各国政府和越来越多的企业意识到数据和信息已经成为企业的智力资产和资源,数据的分析和处理能力正在成为日益倚重的技术手段。
“得数据者得天下!”
近年来在我国和大数据产业密切相关的网络通讯基础建设飞速发展,国内涌现出百度、阿里、腾讯等带有鲜明大数据特色的大型数据公司。金融、商业、生物、地理信息、天气预报大数据服务平台纷纷出现,微信、QQ、百度云、阿里云、地图导航、微博、博客、邮箱等大数据时代所催生的软硬件产品令人迎接不暇。信息传递、数据交换和存储已经如此容易!各个生产和科学领域都在大量地产生和收集数据,自然科学领域收集着从宏观的天文数据到微观的基因数据,经济、金融和人文社会科学收集着大量的观察和调查数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。
同样的模型、同样的数据处理方法在大样本面前必须借助于各种工具和软件进行处理。懂理论不懂编程、懂编程不懂方法,教师和学生动手能力差、数据处理技术水平低,课堂教学内容和社会需求渐行渐远,在大数据时代来临之际,几乎所有国内大学都面临严峻挑战。以笔者所在学校统计专业为例,学生来源为理工科考生,数学功底较好,在校经过一系列高等数学和统计专业课学习,了解、掌握了许多建模和数据处理方法,但实用工具类软件课程几乎没有,学生数据处理能力极差,不要说处理大数据,就连最基本的系列办公软件OFFICE(WORD、POWERPOINT、EXCEL)都用不好。毫无疑问,大数据时代统计学依然是数据分析的灵魂,但只会统计学方法不懂工具和编程的学生很难发挥专业特长,学生“高分低能”、“眼高手低”这种现象亟待改变。
过去十几年社会经济和技术发生了翻天覆地的变化,大学的教学方式又改变了多少?我们培养出的学生的技能和社会实际需求的差距在不断拉大。很多企业早已经行动起来,政府也已经动员起来,大学的教学和科研思路也该调整了。哈商大面临这样的问题,北大、人大等众多国内名校亦是如此。大学的办学目标在很大程度上是培养社会需要的复合型实用型人才,“轻学历、重能力”越来越成为现实社会的用人标准。
在我们这个社会中,有“文秘”、有“生活秘书”,还有类似的“领导助理”工作,目前为止这都是些令人羡慕的、有前途的工作。大数据时代催生“数据秘书”,其不同之处在于:
工作(服务)对象不同
工作环境、范围不同
要求的技能不同
合格的“数据秘书”必须具备处理这些复杂数据的技能。具体来说涉及以下几个方面:
办公自动化(Microsoft Office,Word、PowerPoint 、Excel);
信息传递和数据交换(微信、QQ、邮箱、视频聊天和电话等、数据交换格式);
打字、复印、电传等办公设备
数据展示(微信、博客、网页、统计图表和公式);
数据收集(网络、网页数据抓取、Python);
数据处理(Office、R语言、VBA等软件);
数据存储(数据库、数据仓库、百度云)
在大数据时代,统计学待处理的数据类型、质量和数量产生根本变化,统计学方法和手段亟待更新和扩展。网络统计学(Network Statistics) 是一门新兴的、拓展了的统计学,是在计算机网络和相关软件支持下收集、整理、储存、传递、显示、分析和解释数据,从而反映和揭示自然、社会现象数量特征和数量规律的方法论科学。在分析手段和技术方法上,既重视和继承传统的统计分析方法,更突出现代计算机网络条件下的不同分析手段和技术。随着网络技术的发展和大数据时代的到来,构建网络统计学的技术条件和时机已经成熟,网络统计学必将迎来新的发展机遇。
©哈尔滨商业大学 银河统计工作室
银河统计工作室成员由在校统计、计算机部分师生和企业数据数据分析师组成,维护和开发银河统计网和银河统计博客(技术文档)。专注于数据挖掘技术研究和运用,探索统计学、应用数学和IT技术有机结合,尝试大数据条件下新型统计学教学模式。