yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

原文  http://datameng.com/info/2014/03/big-data-xinwen-caibian/

2012年3月22日,奥巴马宣布美国政府投资2 亿美元启动“大数据研究和发展计划”,将大数据研究上升为国家意志,大数据成为了全球热门话题。其实大数据并非一个全新的事物,麦当劳、Zara等大公司 早就通过数据跟踪、挖掘分析为企业营销提供服务。近年来随着数据积累越来越丰富,上述技术和工具开始从商业领域向其他领域延伸,传媒业也是其中之一。

一、大数据时代新闻生产的变革

在新闻报道中使用数据,以增强报道的说服力和趣味性,可谓由来已久。20世纪60年代兴起的“新新闻学”主张抛弃传统新闻写作禁忌,利用小说写作技巧进 行新闻报道。许多记者、学者则不以为然,菲利普·迈耶针锋相对地提出了“精确新闻”思想,他认为记者在报道新闻时,应该灵活运用调查、内容分析等社会科学 研究方法收集和分析数据,以查证事实,最大限度地避免报道的主观性和可能的错误。精确新闻理论在20世纪70年代风行于美国新闻界,后来又先后影响到世界 各国新闻界。20世纪70~80年代,计算机技术的迅速发展和普及,精确新闻报道中的数据收集、处理和分析任务越来越多地由计算机辅助完成,精确新闻学由 此提升为“计算机辅助报道”。特别是20世纪90年代以来互联网的迅猛发展,极大地扩展了计算机辅助报道的能力和范围。

基于大数据的“数据新 闻”明显不同于计算机辅助报道,可以说是后者在互联网时代的升级版。数据新闻分析的对象是海量的大数据,而计算机辅助报道往往基于有限的数据集;在计算机 辅助报道中,收集和分析数据只是加强新闻报道的一种辅助方式,而在数据新闻中,使用数据不是一种手段,整个新闻工作流程是围绕数据的收集、挖掘和解释展开 的。传媒业本身就是信息产业,在大数据时代拥有先天优势。肯锡全球研究所2011年对美国17个行业拥有的数据量做了估算,离散式制造业拥有的数据量居首 位,共有966PB(拍字节);美国政府列第二位,数据总量达848PB;传媒业居第三位,共有715PB数据量。[2] 近年来大数据的急剧膨胀主要来自于网络营销、社交媒体等基于互联网的服务。大数据的飙升催生了数据新闻等新的报道模式,必将给新闻生产带来巨大变革。

传统的新闻生产流程一般是线性的,记者获取新闻线索后,自行收集相关信息,确定报道方向并实施采访,然后根据获得的新闻素材提炼报道主题,撰写稿件。新 闻编辑在对稿件进行编辑加工后,提交出版部门发表,新闻生产就此完成。在这个过程中,新闻信息的流动是单向且不可逆的,新闻报道的真实性和精确性取决于记 者的识见和编辑的把关。传统新闻业条块分割繁复,记者获取信息的渠道单一,导致对反映全局性态势和规律的报道表现乏力。基于大数据的数据新闻则可以弥补这 一缺陷,经过挖掘和分析的大数据不仅可以展现宏观新闻事实,而且可以更加客观、准确地揭示新闻事件发生的原因,往往比记者观察和采访所得的结果更准确、更 具说服力。2011年英国伦敦骚乱爆发后,英国政界一度将骚乱归罪于Facebook(脸谱)、Twitter(推特)等社交媒体,英国《卫报》记者搜集 了骚乱发生地点信息和伦敦各地区经济指标信息,通过数据可视化方式,在地图上标出骚乱发生的地点,用不同的色块标示伦敦各区的经济状况,发现骚乱发生地点 与当地的贫困程度有关。《卫报》记者还对Twitter信息进行内容分析,发现Twitter并非只是传播谣言,相反在纠正谣言方面发挥了积极作用。《卫 报》的数据新闻批驳了英国政界对社交媒体煽动骚乱的误解,揭示了骚乱发生的深层次原因,显示了数据新闻报道的优势。 
在传统新闻生产的线性流程 中,新闻信息是从媒体到受众的单向流动,媒体处于新闻信息流动的上游,对新闻价值的判断、对新闻事件的解读往往依赖记者编辑的经验,很难顾及受众的个性化 需求。数据新闻强调用户体验,追求新闻信息传播的互动性。数据新闻要解读数据分析的结果,以引导受众理解新闻事实,但这种解读不是唯一正确的答案,也无法 包容数据的全部信息。数据新闻通过可视化方式将数据展现出来,鼓励受众从中寻找自己感兴趣的信息,并对之进行个性化的解读。基于互联网的交互式图表在这方 面堪称典范,英国《卫报》2011年10月制作了一幅关于政府各部门开支的交互式图表,将政府各部门的开支按比例以气泡的方式在图上展示出来,点击后可以 通过缩放效果看到不同部门之间花费的对比。受众可以选择自己关注的政府部门进行比较,做出自己的判断。

数据新闻正式将数据收集、数据分析、数 据可视化等环节引入新闻生产流程,与之相适应的新闻编辑部的人员组成也会发生相应变化。在传统新闻生产中,数据的使用并不是必须的,处理数据图表是美工部 门偶尔的工作,而在数据新闻生产中,收集和分析数据、数据的可视化是经常性的工作,而且居于核心地位。《卫报》、BBC(英国广播公司)、《芝加哥论坛 报》、ABC(澳大利亚广播公司)等数据新闻的先行媒体都成立了专门的数据新闻团队,这些团队一般由记者、编辑、信息设计师、数据研发人员等组成。数据新 闻的诸多成功范例都是专业团队精诚合作的结果,光靠记者编辑的单打独斗是很难胜任数据新闻的报道任务的。

二、数据新闻对新闻从业人员的要求

面临大数据时代的挑战,新闻从业人员除了要熟练掌握文字、图像等传统技能外,还要具备收集数据、分析数据和解析数据的能力,才能顺利进行数据新闻报道。 
1.收集数据能力

数据新闻的报道方式大致有以下两种:①发现新闻线索、确定报道主题后,根据新闻主题寻找相关数据;②从已有的大数据中发现新闻线索,提出问题。不管使用 哪种方式,获取大数据是数据新闻报道的基础。数据新闻报道所使用的数据主要来自两个方面:①从政府、企业、媒体等机构的数据库中直接或申请获取的二手数 据;②媒体自行抓取或调查获得的一手数据。媒体本身就是大数据的重要来源。传统媒体经过多年积累,已经拥有大量内容资源,但这些资源大多以报纸版面、录音 带、录像带等方式保存,尚未进行数字化并建立相关数据库。更重要的是,传统媒体内容资源往往缺乏与受众互动的记录,这就不可避免地会限制数据报道的效力。 传统媒体应该积极建设多功能、综合性的数字化平台,增强与受众的互动,并建立专门的读者数据库。2012年4月,浙江日报报业集团发布公告宣称,斥资32 亿元收购边锋浩方网络平台,该平台拥有500多款游戏,活跃用户达2000多万。无独有偶,同年11月,美国赫斯特传媒集团宣布对Spooky Cool Labs(怪酷研究室)社交游戏公司进行股权投资。两家传媒集团不约而同地选择网络游戏作为其内容产业延伸的新方向,看中的正是网络游戏平台对互动性数据 的收集和积累,及其在数据新闻、数据库营销等方面的开发价值。

政府是大规模数据的原始采集者,而且这些数据大都关乎国计民生,是数据新闻报道 的重要数据来源。在中国现行体制下,政府在获取数据方面的能力甚至比美国政府更强,但在数据公开方面做得还不尽如人意。美国奥巴马政府开设专门网站 (Data.gov),向公众提供联邦政府数据。英国政府的政务大数据公开项目(Data.gov.uk)也相当成功,澳大利亚、新西兰等国都相继建立了 政府数据网站。我国一些部门和机构虽然拥有大量数据,却不多与社会公众分享,导致数据新闻报道中政府数据获取不足。为此,一方面,政府应通过机制改革打破 数据割据与封锁,重视信息公开;另一方面,新闻记者编辑应该了解档案管理、公开的相关法律规定,加强与政府部门的沟通,在获取数据的前提下,尽可能帮助政 府提高决策和管理水平,力争达到双赢的效果。

除了从政府、媒体、企业获取二手数据外,数据新闻从业人员还应具备从互联网收集所需数据的能力。 最常用的方法是通过搜索引擎,采用关键词搜索的方式获取相关数据,也可以运用现有的或开发特定的数据抓取工具,从网页直接抓取所需要的数据。众包 (crowdsourcing)是最新出现的数据收集方法,这种方法以互联网为平台,将数据收集任务分割后,发动受众参与完成,目前还处于试验阶段。

2.分析数据能力

大数据是数据新闻报道的重要资源,但这并不意味着数据新闻就是大数据的堆积,必须对大数据进行准确的分析,才能从大数据中挖掘有价值的新闻信息。因此, 数据新闻从业人员必须具备分析数据的能力。数据虽然是数据新闻的核心,但数据新闻从业人员应该对数据保持谨慎态度,切不可盲从数据。大数据来源多样,质量 也良莠不齐,数据新闻从业人员首先要对所获取的数据质量进行评价,评估数据来源是否可靠、数据收集方法是否科学、数据是否具有时效性。然后对数据进行校 核,去除冗杂的、干扰性的数据,清理数据中的误差,并将数据转换为统一可处理的格式。

对数据的前期处理完成后,下一步就是对数据进行挖掘分 析,这就要求数据新闻从业人员具备数据库设计和管理能力、统计分析与建模能力、网络工程与分析能力,从大数据中发现具有新闻价值的信息。数据新闻通过数据 分析呈现新闻事实,比传统新闻报道更具可信度。尽管并非所有的数据新闻记者编辑都要具备上述能力,但数据新闻记者编辑都有必要理解数据分析的方法和意义。

数据新闻从业人员还要具备数据可视化能力。数据本身是不可见的,数据可视化可以将数据分析的结果以直观可见的方式呈现出来,吸引受众观看,并引导读者从 中挖掘更深层的东西。数据可视化具有强大的认知优势,因为人类大脑的一半是用于处理可视化信息的,一幅设计精妙的数据可视化图表能够穿透纷繁芜杂的信息直 达问题的核心,给受众留下难以泯灭的印象。而且数据可视化图表与图像、视频等视觉媒体相比,更少受主观情绪的影响,更客观可信。常见的数据可视化方式有表 格、数据图、地图和网络图谱等,一般需要通过专门软件制作实现,因此数据新闻从业人员还应掌握数据可视化软件的操作和编程技术。

3.解读数据能力

数据经过挖掘分析和可视化后,数据新闻报道还没有完成,因为大数据挖掘分析的结果数据量往往比较大,数据新闻记者还应该对结果进行必要的解读,以引导受 众理解新闻信息,并对数据分析结果进行个性化解读。传统新闻记者也常常扮演新闻信息“解读者”的角色,只是他们解读新闻信息所依据的是个人的认知和经验。 数据新闻记者对新闻信息的解读同样离不开自身的认识和经验,但这些都不如数据来得客观可信,因此数据新闻记者应该把对数据的解读放在首要位置,但也不能抛 开传统的经验和技术。数据记者解读数据的能力应该体现在对社会环境和新闻事实的全面经验的基础上,从数据分析结果中提炼出有新闻价值的信息,并做出合乎逻 辑的解析。

对数据的解读实质上是对数据中变量之间关系的揭示。《大数据时代》的作者舍恩伯格认为,大数据时代对数据的解读,应该寻找变量之间 的相关关系,而不是因果关系。[3]这在市场营销、工程技术等应用领域无可厚非,因为在这些领域只要发现两个现象之间存在显著的相关关系,就可以创造巨大 的经济效益,而不必弄清楚现象之间可能的因果关系。但在新闻传播领域,对新闻信息的解析止步于相关性层面是不够的。在现代社会,人们很容易知道“发生了什 么”,可能更关心的是“为什么发生”的问题,新闻传播的独特性和社会使命规定了数据新闻不能放弃对因果关系的探求。大数据一般由彼此之间存在弱关系的数据 点构成,正如麻省理工学院教授克劳福德所指出的,大数据的研究方法只能统计某件事情发生的频率和相关性,但不能得出因果关系。将大数据策略和小数据研究相 结合也许是更好的科学研究途径。[4]因此,数据新闻解读数据的方向应该是在对大数据相关性分析的基础上,进一步探讨可能的因果关系。

三、数据新闻职业能力培训是当务之急

有人认为,中国大数据研究起步不久,数据新闻报道在近期内发展的可能性不大。这种观点是非常短视的,数据新闻报道本身在全球尚处于探索阶段,还未形成固 定的模式,我国新闻界应该紧紧抓住这个历史机遇,参与全球数据新闻的研究与实践。况且,我国新闻业发展数据新闻的外部条件已渐趋成熟。大数据的收集和积累 已初具规模,以互联网为例,新浪微博用户每天发的微博数量超过1亿条,百度每天要处理几十亿次搜索请求,淘宝网每天发生数千万笔交易,联通用户的上网记录 一天就达10TB(太字节)……这些大数据的积累为数据新闻报道提供了条件。国内有些新闻网站已经开设专门的图表新闻栏目,比如新浪的“图解新闻”、搜狐 的“数字之道”、网易的“数读”等,虽然略嫌简单粗糙,但引起了网民的广泛关注。有些平面媒体也开始了类似的探索,说明新闻业界已经开始尝试数据新闻报 道。

数据新闻报道要求新闻从业人员具备收集、分析和解读大数据的能力,这些能力是传统媒体记者编辑所缺乏的。英国《卫报》、BBC等探索数据 新闻的先驱媒体的做法是在传统媒体编辑部成立专门的数据部门,引进数据分析人才,让他们跟记者编辑一起工作,通过团队合作进行数据新闻报道。专业数据分析 人员精于与数据打交道,大多对政治、社会、经济问题了解不深,对新闻信息不够敏感,而这方面恰恰是新闻记者编辑的长项。新闻记者编辑如果缺乏数据素养,不 理解数据挖掘和分析的原理和方法,就无法从数据分析结果中洞悉有价值的新闻信息,并对之进行准确的解析。两者不但要精诚合作,而且要加强沟通,增进对各自 工作的了解,才能做出高质量的数据新闻。

数据新闻报道是一个综合性的工作,一般需要团队合作完成,能够熟练掌握数据新闻报道各技术环节的“全 才”可谓凤毛麟角。在数据新闻报道中,要求新闻记者编辑掌握数据收集和分析技术,独立完成报道,几乎是不可能的,也是不现实的。但如果新闻记者编辑缺乏基 本的数据素养,数据新闻报道也很难展开。因此,数据新闻记者编辑应该了解数据处理的原理和方法,并尽可能参与其中,而不必成为这方面的专家。

数据新闻是一种全新的报道方式,而传统新闻业界普遍缺乏数据素养是不争的事实,对新闻记者编辑进行适当的数据素养培训是当务之急。新闻院系的学生是未来的新闻从业人员,也应该纳入培训体系中。数据新闻职业能力培训可以分下列两个层次进行:

1.新闻院系应增设数据新闻类课程

2012年4月,奈特基金(Knight Foundation)和陶氏基金(Tow Foundation)联合授予哥伦比亚新闻学院200万美元研究经费,用于数据新闻的研究和教学工作。[5]乔治-华盛顿大学媒体和公共事务学院今年制 定的下一个五年规划中,数据可视化和其他多媒体技巧列入了教学课程。美国公共广播公司“新闻一小时”的前任高管切尔斯称:“有实力的大型媒体机构需要现在 的大学毕业生具备处理大量数据的能力,而几年前,这还不是新闻记者的分内工作。”[6] 可见,新闻院系增设数据新闻类课程,有来自业界的压力。从美国已经开设数据新闻类课程的新闻院系来看,师资大都来自于业界。哥伦比亚大学数字新闻学项目主 管艾米丽·贝尔2010年加入哥伦比亚大学之前,是英国《卫报》网站数字内容主编。哥伦比亚大学新闻学院已经开设的数字新闻概论性课程,由来自《华尔街日 报》互动团队的苏珊·麦克葛瑞格主讲。对于数据新闻的实践探索,业界已经走在前面,新闻院系从业界聘请师资是明智之举。

国内有些新闻院系已经 将数据新闻课程提上了日程,专业师资的紧缺应该是一个比较突出的问题。由于国内新闻业界数据新闻报道才刚刚起步,很难提供一定数量的合格师资。传统新闻教 学计划中涉及数据新闻方面的课程较少,有些新闻院系甚至没有开设统计学课程。尽管如此,国内新闻院系应该积极创造条件,可以将现有的相关课程培育转化,从 其他院系引进人才和课程,尽量将数据新闻类课程先开设起来,并在课程教学过程中进行整合提升优化。

2.新闻业界应重视数据新闻业余培训 
面对数据新闻的挑战,新闻记者编辑的数据素养亟待提高,新闻业界应重视对之进行有针对性的业余培训。业余培训的形式可分为自学和短期集训两种。新闻记者 编辑都有自己的本职工作,采用自学的方式比较灵活。只是目前适合媒体记者编辑水平的数据新闻自学资料比较少,可以从最基本的方法、最易得的工具出发,循序 渐进地自学相关知识和技术。数据的整理和审校方面,可以从Excel(电子表格)开始学习,很多人的电脑中有这个软件,而且关于Excel的书籍资料很容 易找到,入门比较容易。Google Charts(谷歌电子图表)软件简单易学,初学者容易上手,可以用来创建简单的线图和饼图。对地理数据的可视化,初学者可以从Google Fusion Tables(谷歌融合图表)和Tableau Public(公共场景)两个软件入手,后者不但是免费的,而且有一些很好的网络教程可供参考学习。在图像处理方面,Photoshop(图像处理软件) 是常用的工具,很多人可能已经掌握了基本的操作,可以根据需要自学其他功能。数据处理方面的工具很多,数据新闻记者编辑要善于发现和学习适合报道需要和自 身水平的方法和工具。媒体主管部门和行业协会应该牵头,联合相关新闻院系和专业公司,开发有针对性的、多层次的数据新闻在线教程,供新闻从业人员免费自 学。

鉴于媒体记者编辑的知识结构,有些知识和技术很难完全通过自学获得,有必要通过短期集中培训找到入门的路径。媒体应该与新闻院系合作开设 与数据新闻报道有关的、各个层次的短期集训班,重点解决那些自学中一时无法解决的问题。短期集训应该打破学科的藩篱,积极从其他学科聘请合格的师资,整合 学界和业界的资源,打造数据新闻记者编辑进阶提升的平台。数据分析是数据新闻报道的重要环节,这就要求数据新闻记者编辑从理论层面了解统计学基本原理,数 据挖掘分析的基本方法及其局限性,因此短期集训应该首先开设此类基础理论课程。其后可以开设各种应用课程。在数据收集方面,可以从Whois(域名查询服 务)、Blekko(搜索引擎)等网页工具开始,教授简单的数据抓取方法;在数据管理方面,可以开设MySQL、Access等数据库应用课程,用以处理 比较庞大的数据集;数据可视化软件较多,可以选择Datamarket(数据市场)、Many Eyes(千眼)等常用工具集中辅导,以取得举一反三的效果。当短期集训到达一定层次后,还可以根据需要开设一些涉及数据分析工具的算法和编程的高级课 程。

数据新闻职业能力培训的目的不是为了让每个记者编辑都成为数据挖掘和分析的专家,但这类培训确实是必不可少的。数据新闻记者编辑的数据素 养越高,就越可能做出优秀的数据新闻报道。因此,新闻媒体为应对大数据时代新闻生产的变革,对新闻采编人员的数据新闻职业能力培训刻不容缓。 
(作者单位:南京大学新闻传播学院)

*本文系2012年度教育部人文社会科学研究青年基金项目“基于互联网的传播内容分析法:理论、方法与应用”(12YJC860020)的研究成果之一

注释: 
[1]李国杰, 程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 中国科学院院刊, 2012,(06) 
[2] McKinseyGlobalInstitute. Big Data: The next frontier for innovation, competition and productivity [R]. 2011 
[3]维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 大数据时代[M]. 盛杨燕, 周涛译. 杭州: 浙江人民出版社, 2013 
[4] Crawford K. Think Again: Big Data[EB/OL].http://www.foreignpolicy.com/articles/2013/05/09/think_again_big_data?page=0,0
[5] New research effort at Columbia University seeks best practices for digital reporting[EB/OL]. http://www.knightfoundation.org/press-room/press-release/new-research-effort-columbia-university-seeks-best/ . 
[6]美国高校将教授数据处理知识应对新闻业变革[EB/OL].http://news.sina.com.cn/m/2013-06-27/100627512064.shtml?bsh_bid=253093549

posted on 2016-04-11 21:45  xxxxxxxx1x2xxxxxxx  阅读(239)  评论(0编辑  收藏  举报