数据科学团队构建指南-全-

数据科学团队构建指南（全）

原文：Data Science: Create Teams That Ask the Right Questions and Deliver Real Value

协议：CC BY-NC-SA 4.0

一、了解数据科学

在本章中，我首先定义了什么是数据科学家以及他或她做什么。然后，我将介绍用于收集、清理和分析数据的不同类型的软件和工具。一旦您了解了数据科学中使用的不同类型的软件和工具，我将简要回顾一下关注组织知识的重要性。

定义具有多重含义的多学科实践

那么什么是数据科学家呢？数据科学家比其他类型的科学家更难定义。如果你是政治科学家或气候科学家，你有一个既定项目的学位。在“数据科学”成为一门定义明确的学科之前，“数据科学家”一词就已经被广泛使用。即使是现在，自称数据科学家的人也来自各种不同的领域。作为一门学科，“数据科学”仍在自我梳理中。有点像早期考古。只要拿起铲子开始挖掘文物，任何人都可以自称为考古学家。如今，要成为一名考古学家，你必须读完大学，花上几年时间做研究。像早期考古学一样，数据科学更多的是一种实践，而不是一门学科。

如果你以科学的方式处理数据，你就是一名数据科学家。你是否选择称自己为数据科学家仍然取决于你自己。肯定有一些群体比其他人更适合“数据科学家”这个头衔。如果你是一名统计学家或数据分析师，或者你在生物科学领域工作，你可能会说你一直是一名数据科学家。一些自称数据科学家的人实际上是数学家；其他人来自系统和信息工程，有些甚至来自商业和金融。如果你与数字打交道，并对数据略知一二，你可以很容易地称自己为数据科学家。

现在，随着对数据科学家需求的增加，将会有更多的运动来创建标准化的技能集。你已经开始在伯克利、锡拉丘兹大学和哥伦比亚大学的新项目中看到这一点。新的学位项目将允许公司在招聘时依赖一套通用的技能。目前来看，情况并非如此。事实上，仍然存在一些危险，数据科学家将被视为任何与数据打交道的人，并且可以更新他们的 LinkedIn 个人资料。

思考数据科学的最佳方式是关注科学而不是数据。在这种情况下，科学使用科学方法。你应该进行实验，用经验方法来观察结果。经验主义是科学家通过实验和问题对数据做出反应来获得洞察力和知识的方式之一。一个数据科学家应该每天都使用这项技能。经验方法是知识和实践的结合。你可能使用了经验方法，却没有意识到这一点。

作为一名教练和培训师，我必须经常出差。这通常意味着我发现自己在不同的酒店。我总是惊讶于世界上有这么多不同类型的水龙头和固定装置。我一直纠结的一件事是如何处理酒店淋浴的复杂性。过了一段时间，我意识到处理这个问题的最好方法是使用经验方法。首先，我得猜猜怎么打开淋浴。我先问一个经验性的问题。我如何打开淋浴？然后我做了一个实验。当我按下一个按钮，水就充满了浴缸。如果我按下另一个，莲蓬头就会启动。打开水后，我必须转动不同的旋钮，看看是否能控制温度。如果我拧一个旋钮，它会变得太热。如果我拧另一个，它会变得太冷。所以我问问题，重新评估，直到我能让水变得舒适。我不想用理论的方法。我可以从理论上解释如何让水变得舒适，然后我就可以转动一个转盘，跳进淋浴间。问题是我可能会被冻僵或烫伤。

数据科学家一直使用同样的经验方法。他们对数据提出问题，并做一些小的调整，看看是否能获得洞察力。他们转动旋钮，问更多有趣的问题。

就本书的目的而言，我将数据科学家视为使用经验方法从数据中获得洞察力并专注于科学方法的人。我们强调的是“数据科学”中的科学，而不是数据。

使用统计和软件

因为数据科学仍然是由实践定义的，所以特别强调使用通用工具和软件。请记住，数据科学家就像第一批考古学家。因此，把软件想象成你进行发现所需要的刷子和镐。但是，尽量不要太专注于学习所有的工具，因为它们不是你需要知道的全部。让一个人成为数据科学家的是科学方法，而不是工具。数据科学家需要的工具分为三大类:

保存数据的软件:这些是电子表格、数据库和键/值存储。一些流行的软件包括 Hadoop、Cassandra 和 PostgreSQL。
用于清理数据的工具:数据清理，也称为数据清理，通过修改或修正数据或删除重复的、格式不正确的、不正确的或不完整的数据，使数据更容易处理。用于清理数据的典型工具是文本编辑器、脚本工具和编程语言，如 Python 和 Scala。
帮助分析数据的统计软件包:最流行的是开源软件 environment R、IBM SPSS 预测分析软件和 Python 的编程语言。其中大多数包括可视化数据的能力。你需要这个来制作漂亮的图表。

保存数据

让我们先来看看你需要知道的保存数据的工具。你会经常听到的一个术语是大数据。大数据听起来像 20 世纪 60 年代恐怖电影的标题。你想象一个戴着猫眼眼镜尖叫的女人被堆积如山的数据吞噬。大数据是指大到不适合大多数数据管理系统的数据集。有些人混淆了数据科学和大数据，因为它们同时被炒作，经常被混为一谈。但是，请记住，数据科学是将科学方法应用于数据。这并不假设您的数据必须很大。事实上，有一本名为《数据智能:利用数据科学将信息转化为洞察力》的好书，作者是 John W. Foreman， ¹ ，书中介绍了仅使用电子表格的数据科学统计。

然而，数据科学中最活跃的领域之一是围绕大数据，并且有专门设计来处理大数据的软件。开源软件包 Hadoop 是目前最流行的。Hadoop 使用分布式文件系统将数据存储在一组服务器上，通常称为 Hadoop 集群。集群还在服务器上分配任务，这样您也可以在服务器上运行应用程序。这意味着您可以在数百甚至数千台服务器上存储数 Pb 的数据，并对集群中的数据运行处理。Hadoop 集群上运行的两个最常见的进程是 MapReduce 和 Apache Spark。MapReduce 批量处理数据，Spark 可以实时处理数据。

清理数据

收集完数据后，您很可能希望使用一些工具来清理数据，使其更有用。清理数据通过修改或修正数据或删除重复的、格式不正确的、不正确的或不完整的数据，使处理数据变得更加容易。假设您正在收集数百万条客户的推文，其中可能包含文本、图片甚至视频。在收集这些数据时，您可以创建一个脚本，将所有传入的 tweets 分成各种类型(文本、图片、视频等)。这将允许您使用不同的参数分别分析这些组。如果您经常进行这种分析，那么最好创建一个小的 Python 应用程序来执行集群上的操作，而不是创建一个在 tweets 传入时执行该操作的脚本。

数据科学家可能会花费高达 90%的时间来调整和清理数据，以提高其可用性，因此自动化这一过程对于这一步至关重要。

分析数据

最后一组工具是用于分析数据的工具。最流行的两个是 R 和 Python。

R 是一种统计编程语言和软件环境，允许您在数据中建立联系和相关性，然后使用 R 的内置数据可视化来呈现它们。这可以让你的报告有一个漂亮的图表。例如，假设您的公司想要一份报告，以了解他们的积极反馈与该反馈是发生在白天还是晚上之间是否有联系。收集这些信息的一种方法是在 Hadoop 集群中捕获 Twitter 数据，然后使用数据清理将推文分类为正面或负面。接下来，您可以使用像 R 这样的统计包来创建正面和负面推文以及它们发布的时间之间的关联，并打印一份报告，在一个漂亮的图表中显示结果。

请记住，这些是最流行的工具。如果你是数据科学团队的一员，你几乎肯定会在对话中听到至少一个问题。还有许多工具可以自动收集、清理和分析数据。

有许多组织花了很多钱试图进入这个领域。尽量记得把重点放在分析上。数据和工具只是获得更大洞察力的工具。在这个成长中的领域谨慎花钱。

发现洞见和创造知识

在过去的 20 年中，大多数组织都致力于通过简化业务流程来提高运营效率，从而变得更加精简和灵活。他们问了一些运营问题，比如“我们如何才能更好地合作？”

数据科学不一样；它不是目标驱动的。它是探索性的，使用科学的方法。这不是关于一个组织运作得有多好；而是获得有用的商业知识。对于数据科学，您可以提出不同类型的问题，例如:

我们对客户了解多少？
我们如何交付更好的产品？
为什么我们比竞争对手强？

这些都是需要更高层次的组织思维的问题，而大多数组织还没有准备好问这类问题。他们被迫设定里程碑和创建预算。他们没有因为怀疑或好奇而得到回报。

想象一下，你正在参加一个商务会议，有人问了这些问题。为什么我们要这样做？你凭什么认为这会有用？为什么这是个好主意？有可能，问这个问题的人会被认为是令人讨厌的。通常，有人会回答类似“你没看备忘录吗？”然而，这些是你建立组织知识所需要的技能。这些是您希望从数据科学团队那里得到的问题。尽管如此，组织中的大多数人还是专注于把事情做好。诸如此类的问题被视为前进的障碍。然而，作为一个组织，你通过问有趣的问题来获得知识。

我曾经为一个网站工作，这个网站将潜在的汽车购买者和经销商联系起来。网站上有数百个信息标签，显示客户是否停留或点击了他们的链接。所有这些数据都流入了 Hadoop 集群，每周都有数 TB 的数据。该公司拥有数年前的历史数据。他们花费了大量的资金，甚至成立了专门负责收集和维护这些数据的部门。收集数据很容易。他们使用的软件简单且易于创建。困难的部分是弄清楚如何处理这些数据。

这似乎是许多在数据科学领域起步的组织面临的共同挑战。这些组织大多将其视为运营挑战。他们关注数据的技术方面。它是关于收集数据的，因为它相对便宜并且容易理解。这是一个友好的会议，每个人都可以支持这项工作。他们甚至会创建多个集群或数据湖来汇集来自整个组织的数据。这是容易的部分。组织苦苦挣扎的是科学。他们不习惯问和回答有趣的问题。

如果您是这个汽车网站的数据科学家，请考虑您可能会提出的实验和问题。你可以进行一个如图 1-1 所示的实验，改变图片的颜色，看看如果图片是红色、蓝色或黄色，顾客是否更有可能点击它。如果报告显示顾客点击红色汽车的可能性增加了 2%,该组织可以与汽车经销商分享这一点，以产生新的收入。你可以做一个实验，通过减少显示的汽车数量来看看这个站点的页面上是否有太多的汽车。然后，您可以运行一个报告，看看显示的汽车越少，客户点击链接的可能性是否会增加。

图 1-1。

Changing the color of the cars Note

在 ds. tips/ 4H5Ud 查看如何创建这些图表。

这是数据科学家应该思考的实证研究类型。他们应该扭曲数据，提出有趣的问题，进行快速实验，并产生精心设计的报告。

摘要

在本章中，您学习了什么是数据科学家以及他或她做什么。您还了解了用于收集、整理和分析数据的不同类型的软件和工具，以及如何发现见解和创造知识。关键是要问有趣的问题。在第二章中，你将学习一些数据库基础知识。

Footnotes 1

《数据智能:利用数据科学将信息转化为洞察力》。约翰威利父子公司，2013 年。

二、涵盖数据库基础知识

如您所见，数据科学围绕着更好地理解您的数据。这就是为什么您将使用数据库来访问您提出有趣问题所需的数据。有许多不同类型的数据库。此外，还有许多专门用于数据库的术语。您需要熟悉数据库领域中使用的基本概念和术语，以及不同数据库的组织方式。

与关系数据库建立连接

数据科学家将处理许多不同形式的数据，包括遗留数据库或旧电子表格。他们也可以处理图片和视频。作为一名数据科学家，您应该熟悉组织存储数据的常见方式。大多数组织都有各种各样的数据库。其中一些非常现代，另一些则不那么现代。

理解这些不同技术的最好方法是从头开始。即使是最现代的数据库也常常建立在超过 50 年的技术之上。现代数据库真正开始于 20 世纪 60 年代后期的阿波罗太空任务。前往月球的火箭需要数百万个零件，NASA 与 IBM 合作创建了一个信息管理系统(IMS)来组织这些数据。航天局有早期的清单，看起来很像现代的电子表格。它们是由一系列列和一长串行组成的计算机文件。

可以想象，在一个小型黑白终端上管理一个有一百万行的表可能会变得很困难。大约在同一时间，航天局使用了第一个关系数据库。这些数据库将数据分成几组表格。这些表格看起来仍然像电子表格，但代表的数据块更小。

然后，他们在这些表之间创建关系。他们可以创建 50 个表，每个表包含 20，000 个零件，而不是一个包含一百万个零件的长列表。这就是为什么这些被称为关系数据库。该数据库基于彼此有关系的多组表。甚至早期的数据库工程师也在努力创建一种有效的方法来对数据库表进行分组。他们创建了地图来显示表格之间的关系。他们称这些地图为图式。模式使关系数据库要么易于使用，要么难以管理。

即使有了这些早期的数据库，您也可以看到工程师们在创建模式时是如何的艰难。他们应该围绕最大的部分创建表格吗？也许做一张桌子只放推进器，然后另一张桌子放燃料箱？这里的问题是，如果你改变了火箭的设计，那么你也必须改变数据库的设计。

也许您可以根据零件制造商创建表格。问题是，你可能有一个生产数千个零件的制造商，而另一个制造商只生产几十个。这在今天仍然是一个挑战。关系数据库需要大量的前期设计。在开始收集数据之前，你必须对你的数据有很多了解。如果你错了，重新设计你的数据库会花费很多精力。

IBM 后来将他们为美国宇航局创造的 IMS 商业化了。在 20 世纪 70 年代中期，他们开发了一种结构化查询语言(SQL)来帮助他们的客户从系统中提取数据。这种语言仍然很流行。SQL 是一种优雅的语言，可以从几个不同的关系表中提取数据。它重新连接所有不同的表，并显示数据，就好像这些数据都存储在一个大表中一样。这个虚拟表通常被称为“视图”

多年来，关系数据库中增加了许多功能。它们催生了关系数据库管理系统(RDBMS)。像 IBM、Microsoft 和 Oracle 这样的公司仍然支持和开发关系数据库管理系统。

Note

您可能听说过的另一个关系数据库术语是 CRUD，它代表创建、读取、更新和删除。它描述了 RDBMS 的所有功能。有时人们会在“搜索”前面加一个 S，并使用缩写 SCRUD。

使用 ETL 将数据放入仓库

本节讨论的术语和概念由数据科学团队使用。尽量不要被语言淹没。如果您了解这些术语和挑战，您更有可能快速获得您需要的数据。

许多数据科学概念都是建立在以前对关系数据库的研究基础上的。几十年来，公司一直在捕捉和尝试分析数据。即使在今天，RDBMS 仍然是企业数据库的基石，您需要了解数据科学项目的 RDBMS 术语。在处理企业数据仓库(EDW)时，您可能会遇到 RDBMS 术语。EDW 是一种特殊类型的关系数据库，主要用于分析数据。传统数据库针对在线事务处理(OLTP)进行了优化。EDW 用于在线分析处理(OLAP)。

请这样想:典型的数据库侧重于实时处理数据，而 EDW 侧重于分析已经发生的事情。

让我们假设你有一个卖跑鞋的网站。你雇了一个工程师来创建你的数据库。她创建了许多不同的表和关系。有一个客户地址表，一个鞋子表，一个运输选项表，等等。web 服务器使用 SQL 语句收集数据。当顾客购买一双鞋时，他们的地址数据与该鞋相关联，web 服务器向顾客提供他或她的运送选项，并且该双鞋被运送。你希望这个数据库是快速和有效的，并侧重于快速回报。这个数据库是您的客户实时正在做的事情。这是一个 OLTP 数据库。

您还要求您的数据库工程师创建一个脚本，每天将数据上传到您的仓库。您的数据仓库针对分析处理进行了优化。这是一个专注于创建报告的 OLAP 数据库。

你让数据分析师创建一份报告，看看顾客的地址和他们购买的鞋子类型之间是否有任何联系，如图 2-1 所示。你发现温暖地区的人更有可能买颜色鲜艳的鞋子。您可以使用这些信息来更改您的网站，以便来自气候温暖地区的客户可以在页面顶部看到更轻便的鞋子。

图 2-1。

Color brightness average by state Note

参见如何在 http://ds.tips/trAp8 创建此图表。

现在假设你的网站变得非常成功，并被一家销售各种运动服装的公司收购。该公司的所有网站都有一个仓库，他们希望将您网站的数据与他们所有其他网站的数据结合起来。在这一点上，该公司将做一些所谓的 ETL，这意味着提取，转换和加载。他们从您的网站获取数据，然后将数据加载到他们的 EDW 中。

当他们提取您的数据时，他们会尝试以某种标准格式这样做，这样他们就可以将数据转换成适合他们的数据仓库的东西。他们仓库中的表可能有不同的模式。例如，数据仓库可能在 customer 表中有运输信息，而您的数据库在自己的表中有运输信息。数据必须经过转换才能进入 EDW。数据分析师很可能会将大部分时间花在清理和连接数据上，以使其适合数据，最后将转换后的数据加载到仓库中。

前面的场景并不是您可能需要执行 ETL 的唯一场景。一些公司可能有一个独立于 Hadoop 集群的数据仓库，在这种情况下，他们需要对仓库数据运行 ETL，以将其移动到 Hadoop 集群中。在这种情况下，数据分析师需要转换数据，以便可以在集群中使用。

许多组织经常将 Hadoop 视为昂贵的数据仓库的替代品。他们希望通过将数据存储在廉价的硬件上而不是昂贵的仓库设备上来节省资金。在这种情况下，公司可能会重写他们的 ETL 程序，以便他们可以将数据加载到 Hadoop 集群中，然后逐步淘汰或关闭仓库。

放下和 NoSQL 的过去

通常，数据科学团队需要更灵活的方式来存储数据。记住，关系数据库依赖于模式。在将数据放入数据库之前，您需要了解很多关于数据的信息，这意味着您必须提前做好计划。您必须知道什么类型的数据出现在数据库字段中(文本、视频、音频或其他)，将这些字段组织成表，然后创建表关系。数据库需要一个固定的结构，这样你就可以创建、读取、更新和删除你的记录。对于一些非常大的数据库，这种开销会使您的服务器陷入困境。

让我们回到你的跑鞋网站。一位顾客找到一双鞋，然后来到结账页面。此时，网站将购买的一双鞋与顾客的地址联系起来。这个结帐页面需要访问四个不同的数据库表:

鞋桌
客户表
地址表
装运台

对于数据库来说，这是很大的工作量。你的数据库越努力，你的网站越慢。

你如何加快速度？您是否需要购买一个更大的服务器，将您的表分在几个服务器上，或者让几个服务器在网络上同步？对于非常大的网站，这些选项可能看起来不自然。

现在，设想一个数据库，它将结帐页面中的所有内容存储为一个事务。数据库事务是必须完成的要么全有要么全无的工作。一气呵成，一气呵成，一气呵成，一气呵成。如果数据没有拆分到表中，也不需要查询任何关系，那会怎么样呢？信息被输入，你就大功告成了。

这是 NoSQL 背后的想法。NoSQL 最初是作为一个 Twitter 标签，供想要超越关系数据库的开发人员使用。实际上并不是对 SQL 的猛烈抨击。事实上，NoSQL 和 SQL 没有太多的关系。更多的是关系数据库的局限性。一般来说，NoSQL 数据库应该是非关系的、无模式的、集群友好的，并且最好是开源的。

所有这些品质都应该吸引数据科学团队。非关系型数据库通常更容易更改，也更容易使用。您的 web 应用程序的外观和您存储数据的方式之间不一定存在脱节。您也不必经历创建和拆分已经存在的表的丑陋过程。这通常被称为规范化数据库。没有模式，你就不必担心事先知道所有的事情。

回到跑鞋网站。它被一家更大的公司收购了。这家公司想把你的客户加入他们的常客计划。对于关系数据库，这是一个严重的架构挑战。客户表中应该有经常购买者的号码吗？您是否需要创建一个全新的表来存储经常购买者的号码？一个客户可以有多个买家编号吗？两个客户可以共用一个号码吗？在将客户加入常客计划之前，所有这些问题都需要解决。你必须重做数据库，并找出如何纠正丢失的数据。

没有模式，新字段几乎变得微不足道。您只需将它存储为一个事务。如果客户有一个频繁的买家编号，它会出现在交易中。如果客户没有，则该字段不存在。

最后，NoSQL 数据库应该是集群友好的。您应该能够将数据存储在数百甚至数千个数据库服务器中。在 NoSQL，保存在事务中的记录称为集合。这些集合包含所有的数据:鞋子、顾客、地址和运输信息。这些聚合更容易在许多数据库服务器之间同步。大多数服务器在集群中工作。这允许它们在彼此之间同步，然后向其他集群发送更新。

Note

“集群”这个词听起来应该很熟悉。这与 Hadoop 处理数据集的方式相同。事实上，Hadoop 的大部分都是基于 HBase 构建的，h base 是一个开源的 NoSQL 数据库。

当你在数据科学团队工作时，你几乎肯定会遇到 NoSQL。对于许多组织来说，这是处理大型数据集的首选方式。由于其更简单的设计，开发人员也更容易创建可以快速发展为企业规模的 web 应用程序。

大数据问题

如前所述，大数据和数据科学如此紧密地交织在一起，以至于许多组织将它们视为一体。记住数据科学是用科学的方法提出有趣的问题。这并不意味着你需要大量的数据来问这些问题。大数据提供了丰富的新数据源，允许您提出用较小的数据集无法回答的问题。

大数据并不是一个真正的名词。在 NASA 最初的论文中， ¹ 将其描述为“大数据问题”你可以从两个方面来理解这个问题:这是一个“大数据”问题或一个大的“数据问题”。如果你读整篇论文，似乎他们把重点放在了这个问题上。这与“大数据”无关。这是关于如何处理这些新数据的问题。十年后，麦肯锡的报告也提到了这一点。 ² 在报告中，作者将大数据称为超出常用硬件和软件能力的数据。

那么，为什么将大数据视为一个问题而不是一个名词很重要呢？嗯，是因为很多做大数据项目的公司其实并没有大数据。它可能看起来很大，因为它有很多。这似乎也是一个问题，因为储存和收集起来是一个真正的挑战。但这不是“大数据问题”。

确定您是否存在大数据问题的一种方法是查看您的数据是否属于四个类别。你可以把这些分类记为四个 V。问自己这些问题:

我有大量的数据吗？
我有各种各样的数据吗？
数据是否以很高的速度进入？
我收集的数据有真实性吗？

要成为大数据，它需要具备所有这四个属性。

音量问题通常很简单。如果你每天收集数 Pb 的数据，你可能有足够的容量。当然，这可能并不总是一个问题。在不久的将来，也许一艾字节的容量会被认为是一个足够大的问题。

应该有各种各样的信息。可以有文字，视频，声音，图片。

对于速度，想想纽约证券交易所。他们每天处理数十亿笔交易。他们有大量的数据以高速流入。股票价格在几毫秒内涌入并波动。但是，都是同一类型的数据。通常只有股票代码和价格——大部分是文本。他们收集交易数据，而不是图片、声音或新闻故事。所以他们没有大数据问题。他们当然会收集大量数据，但他们现有的技术应该足以应对这一挑战。

最后，想想数据的准确性。假设你创建了一个数据库，收集了所有关于你网站的推文和脸书帖子。你收集视频、图片和文本。每天都有数 Pb 的数据流入您的集群。您运行报告来查看客户是否对您的产品感到满意。浏览完数据后，您会意识到没有一个问题可以决定客户的情绪。所有的努力都花在了收集无用的数据上，因为这些数据没有提供任何你需要的信息。

为了提供一个有趣的大数据问题的例子，想想围绕自动驾驶汽车的挑战。你需要收集什么类型的数据？你需要收集大量的视频、声音、交通报告和 GPS 定位信息——所有这些都以高速实时地流入数据库。然后，汽车必须找出哪些数据具有最高的准确性。路边的那个人是因为体育比赛而尖叫，还是因为有人站在路上而尖叫？人类驾驶员有几秒钟的时间来搞清楚这一点。大数据汽车必须立即处理视频、音频和交通坐标，然后决定是停下来还是忽略声音。这是一个真正的大数据问题。

Tip

试着记住大数据和数据科学的区别。大数据会让你提出更有趣的问题。这并不意味着所有有趣的问题都需要大数据。专注于科学。这样，不管你有什么数据，你总是能够提出最好的问题。

摘要

在本章中，您了解到因为数据科学围绕着有趣的数据，所以您经常需要使用几种类型的数据库。您了解了一些专门用于数据库的术语，以及该技术的一些基本概念和术语。您还看到了数据库是如何组织的。在第三章中，你将学习如何识别不同的数据类型。

Footnotes 1

考克斯，迈克尔和大卫·埃尔斯沃斯。“面向核外可视化的应用控制的需求分页。”1997 年第八届可视化会议论文集，第 235 页起。IEEE 计算机学会出版社，1997 年。

曼尼卡、詹姆斯、迈克尔·楚伊、布拉德·布朗、雅克·布欣、理查德·多布斯、查尔斯·罗克斯博格和安吉拉·h·拜尔斯。"大数据:创新、竞争和生产力的下一个前沿."(2011).

三、识别不同的数据类型

当你在一个数据科学团队中时，你会经常处理许多不同类型的数据。这些不同的类型将是决定如何存储数据的关键因素。像 NoSQL 这样的技术为存储不同的数据类型提供了很大的灵活性。关系数据库的灵活性较差，但有时更容易使用，而且在关系数据库中生成报告通常更容易。

当您考虑如何存储数据时，您需要了解不同的数据类型。任何存储都是如此。某些数据库针对某些类型的数据进行了优化。就像您不希望在水壶中存储三明治一样，您也不希望建立一个关系数据库来保存错误类型的数据。

您的团队应该考虑三种类型的数据:

结构化:按照特定顺序遵循特定格式的数据。
半结构化:具有某种结构的数据，但也增加了更改字段名和创建值的灵活性。
非结构化:不遵循模式且没有数据模型的数据。

我们将在接下来的章节中更详细地探讨每一种类型的数据，然后介绍什么是大垃圾，并为您提供一些筛选垃圾的技巧。

用结构化数据保持简单

第一种数据在许多方面是最简单的。它通常被称为结构化数据。结构化数据是遵循特定格式和特定顺序的数据。它就像数据库世界的砖块和砂浆——它便宜、不灵活，并且需要大量的前期设计。

结构化数据的一个很好的例子是典型的办公室电子表格。当你用数据填充你的行时，你必须坚持一个非常严格的格式和结构。例如，您可能有一个名为“购买日期”的列每个领域都必须遵循严格的准则。你不能把“星期二”放在一排，然后把“三月”放在下一排。你必须遵循特定的格式；例如，数字月后跟斜杠、日和年(类似于 MM/DD/YYYY 格式)。

这种格式和结构称为数据模型。结构化数据依赖于这种数据模型。数据模型类似于数据模式，除了模式用于定义整个数据库结构。数据模型定义了各个字段的结构。它是如何定义每个数据字段的内容。您决定该字段是否包含文本、数字、日期或其他内容。

想想电子表格的例子，如果忽略了数据模型会发生什么。如果在一行的“购买日期”字段中键入星期二，在另一行键入三月，当您希望创建一个显示三月所有购买的报表时，会发生什么情况？你会怎么做？你会用数字三吗？你会用三月这个词吗？你肯定不会用星期二这个词。

如果您进行这种类型的数据输入，您的电子表格将充满数据垃圾。每次你试图对数据进行排序或创建报告时，都会有一堆无效数据。然后你必须回去清理它，或者从报告中删除它们。这就是为什么许多电子表格应用程序都有格式规则，迫使您在输入数据时遵循特定的模式。

数据库也是如此。许多数据库拒绝不符合模型的数据。通常，用于收集数据的网站(或中间件)被设置为各种字段的特定类型和格式。

关系数据库擅长收集结构化数据，这意味着存在大量的结构化数据。你在网站上或通过移动应用程序访问的许多数据都来自结构化数据。您的银行对账单、航班信息、公交时刻表，甚至您的地址簿都是结构化数据的形式。

这并不意味着大多数数据都是结构化的。实际上，大多数数据并不遵循特定的格式和结构。事实上，一些更有趣的数据根本不遵循任何结构。像视频、音频和网页这样的数据没有定义的结构。

作为数据科学团队的一员，您需要将数据类型与收集方法结合起来。如果您使用关系数据库，您会受限于主要是结构化的数据。对于结构化数据，创建报告通常非常简单。您可以使用结构化查询语言或 SQL 从数据库中提取数据，并以标准格式显示。如果使用 NoSQL 集群，可以处理所有数据类型，但是创建报告会更加困难。这些都是你的团队需要考虑的决定。

共享半结构化数据

当您在关系数据库中拥有结构化数据时，世界上的一切似乎都已定义好并且组织得很好。这就像你把所有的调料都放在调料罐里——你知道所有的东西都在哪里，也知道在哪里可以找到它们。然而，很少有应用程序会如此简单。

半结构化数据比结构化数据更难定义，所以我们将以跑鞋网站为例。假设您为跑鞋网站使用一个关系数据库。它有四个表:鞋子、顾客、他们的地址和运输选项。所有的结构化数据都适合一个数据模型。日期是标准的，邮政编码也是标准的。事情进展顺利。世界上的一切似乎都是对的。

然后你收到了一封运输公司的邮件。运营商表示，通过直接将信息添加到他们的数据库中，可以显著降低成本。您只需要查询他们的数据库，下载其中一个地区运输代码，然后将其添加到订单中并创建一个新记录。这应该很容易，因为他们的数据库就像你的一样。这些都是结构化数据，并且在关系数据库中。

问题是他们的模式和你的模式不一样。您将您的邮政编码数据称为“邮政编码”他们称他们的邮政编码数据为“邮政编码”你并不关心鞋子是运往企业还是住宅。确实如此。你没有具体说明是房子还是公寓。他们每一种都有不同的价格。现在，您需要一种方法来交换您的结构化数据和它们的结构化数据，即使它们都是不同的模式。

要解决这个问题，您需要下载运营商的数据和相关的模式。当客户订购鞋子时，您的数据库会将邮政编码发送到运营商的数据库。它将返回一堆数据，包括他们的地址版本、字段名和数据模型。请记住，他们使用“邮政编码”作为邮政编码。这将包含在新数据中。

他们的数据具有结构化数据的一些特征。它组织良好，有一个标准的格式。文本字段是文本。日期字段是日期。但是数据包括他们的模式。运营商可以使用他们想要的任何名称。这就是为什么这种类型的数据被称为半结构化数据。

半结构化数据甚至比结构化数据更受欢迎。它有结构，但结构取决于来源。您将一直使用半结构化数据。你的电子邮件是半结构化数据。它有一个非常一致的结构。你总是有一个发件人和收件人，但信息可能会有所不同。邮件内容可以只是文本，也可以包括图像或附件。

数据科学团队通常处理半结构化数据多于结构化数据。有大量的电子邮件、博客和社交网站内容可以分析。

当您谈论使用和交换半结构化数据时，有几个术语是相当常见的。其中之一是扩展标记语言(XML)数据类型，这是一种用于交换信息的较老的半结构化数据类型。还有 JavaScript Object Notation (JSON)，这是一种交换半结构化数据的更新方式。它通常是 web 服务的首选数据类型。

包含半结构化数据是提出更有趣问题的好方法。回到跑鞋的例子。假设您想获得客户对您的跑鞋订单的反馈。您可以从一些最大的社交媒体网站下载半结构化数据，然后将这些数据与您拥有的客户的结构化数据相结合。如果你的顾客对他们的鞋子不满意，你可以给他们寄一张道歉券。

使用结构化和半结构化数据可以发现这些问题。你的团队可以开始调查你的顾客对他或她的购买有多满意。

收集非结构化数据

最流行的数据类型是非结构化或半结构化的:非结构化数据。一些分析师估计 80%的数据是非结构化的。仔细想想，这很有道理。想想你每天创建的数据:每次你留下语音邮件，你上传到脸书的每张图片，你在工作中创建的 OneNote 备忘录或 PowerPoint 演示文稿，甚至你在网上搜索时生成的数据。这都是无组织的。

那么这些数据有什么共同点呢？这是最大的挑战。答案是不多。它是无模式的。请记住，模式是显示数据的字段、表和关系的映射。您没有包含非结构化数据的地图。此外，非结构化数据的格式取决于文件。Microsoft Word 文档可能有固定的格式，但该格式仅由该应用程序使用。这不是所有文本的格式。这就是为什么您通常不能在另一个程序中编辑 Microsoft Word 文档。

这也意味着没有固定的数据模型。没有一致的地方来寻找字段名和数据。如果您有一打文档，您如何确定它们的标题和内容？如果有些是 pdf，有些是 Microsoft Word 文档，有些是 PowerPoint 演示文稿呢？每一个都有自己的格式。没有要查找的标签为“文档标题”的字段

这是谷歌等搜索公司多年来一直在努力应对的挑战。如何处理没有固定格式和一致数据模型的数据？每次你搜索这些引擎，你都会看到他们的劳动成果。如果你搜索像“猫”这样的词，你会看到文本、视频、图片，甚至音频文件。

处理非结构化数据是数据科学中最有趣的领域之一。像 NoSQL 这样的新数据库允许你捕获和存储大文件。把它们都存放在一个地方要容易得多。所有的音频、视频、图片或文本文件都可以进入 NoSQL 集群。

如果你想捕捉一切，也有新的工具。你可以使用像 Hadoop 这样的大数据技术来批量或实时处理数据。

所以让我们回到你的跑鞋网站。业务增长了一些，现在你是新数据科学团队的一员。你与营销和管理部门合作，提出了你的第一个有趣问题:谁是最好的跑鞋顾客？您收集了一些基本的个人信息，这些信息很容易在您的客户数据库中找到。你有他们的电子邮件地址和他们居住的城市和州。你获取这些信息，开始浏览客户的社交网络帖子。你开始收集所有的非结构化数据。也许您的客户发布了一个完成马拉松的视频。你可以发一条祝贺的微博。

你也可以决定开始浏览客户朋友的帖子。也许你的客户发布了一张他们和一群人一起跑步的照片。您可以使用非结构化数据来识别这些人，并向他们发送特殊促销信息。

这种类型的数据项目通常被称为客户的 360 度视图。你要尽你所能找出他们的动机。然后，您可以使用这些信息找到您的最佳客户并发送促销信息。你可能还会发现，有几个客户推荐了他们的很多朋友。你可能想给他们提供特殊的奖励和折扣。

随着时间的推移，您可以捕获越来越多的客户非结构化数据，这将允许您询问有关客户的更复杂的问题。比如:他们更有可能去旅行吗？他们更有竞争力吗？他们多久去一次餐馆？这些问题中的每一个都有助于你联系顾客，销售更多产品。当您收集这些数据时，您可能希望将其显示在图表中，如图 3-1 所示。

图 3-1。

Brand followers keyword mention count Note

参见如何在 http://ds.tips/Muj7f 创建此图表。

非结构化数据是一种每天都在增长的资源。想一想你今天做的可能会引起公司兴趣的事情。你发了一条关于你长途步行上班的微博吗？也许你需要更好的鞋子。你抱怨过下雨天吗？你应该买一把雨伞。非结构化数据允许公司提供这种级别的交互。

坐在大垃圾堆里

非结构化数据带来了一系列新的挑战。您遇到的第一个问题是是否要删除数据。请记住，数据科学团队对他们的数据使用科学方法。你希望能够提出有趣的问题。你需要决定你想问的问题是否有任何限制。

保留和丢弃数据都有很好的理由。一些数据分析师认为，你不可能知道你可能会问的每一个问题，所以为什么要扔掉数据呢？保存大量数据也相对便宜——通常每千兆字节只需几美分。你不妨把它都留着，而不是决定扔掉什么。有时，购买新硬盘比花时间参加数据保留会议更便宜。

其他分析师认为，你应该扔掉你的数据。这些大数据集群中可能有大量垃圾。你的垃圾越多，就越难找到有趣的结果，因为你的信息中有太多的噪音(无意义的数据)。决定是保留还是删除数据是许多数据科学团队仍在努力解决的问题。

我曾经为一家应对这一挑战的公司工作。他们拥有一个网站，将潜在的汽车购买者与汽车经销商联系起来。他们创建了一个标记系统，可以记录客户在他们网站上看到的所有内容。每当客户滚动图像时，数据库都会添加一条新记录；他们点击的所有链接都被收集了。这个系统发展成了数以千计的标签。每个标签都有数百万笔交易。公司内部只有少数人了解每个标签捕捉的内容，这使得他们很难创建有趣的报告。

他们对非结构化数据使用相同的标记系统。他们开始收集广告和 Flash 视频的信息。他们希望将标签与图片和交易联系起来，这样他们就可以看到客户点击的图片以及指示图片在页面上位置的标签。所有这些信息都存储在不断增长的 Hadoop 集群中。

团队中的一些人认为很多数据都过时了。只有少数人知道标签系统，广告也在不断变化。此外，了解标签系统的人开始给标签重新命名。很多数据都过时了。

团队中的其他人认为，与 Hadoop 集群中可以存储的数据相比，这是非常少量的数据。谁在乎你是否有几千兆字节的过时数据？不值得花力气去清理。

很有可能，你也会处理这些类型的挑战。当你这样做的时候，请记住这些事情:

真的没有正确的答案。您的数据科学团队只需要找出最适合他们的方法。
如果您决定保留所有内容，那么在创建有趣的报告时，您可能需要更加努力。你需要做更多的过滤，数据中会有更多的噪声。
如果你决定扔掉数据，你会有一个更干净的集群。然而，有可能你会不经意地扔掉一些你将来会后悔的东西。就像你清理衣柜一样。你永远不知道那件麂皮领夹克是否会再度流行。但是如果你保留太多夹克，你可能会忘记你有什么。

最重要的是确保你的团队做出决定。你不希望数据策略每隔几个月就改变一次。要么在一开始就决定保留所有数据，要么放弃一些数据。与团队合作，确保每个人都同意该政策以及哪些可以扔掉。如果你没有一套政策，你可能会破坏所有的数据。如果你不知道你扔掉了什么，保留了什么，就很难理解报告的意义。试着尽早决定什么最适合你的团队。

摘要

在本章中，您学习了结构化数据是按照特定顺序遵循特定格式的数据。您还看到了半结构化数据是具有某种结构的数据，但是在更改字段名方面增加了灵活性。最后还有非结构化数据，其他都是。它是不遵循模式并且没有数据模型的数据。你还了解了大垃圾，并找到了一些筛选垃圾的技巧。在第四章中，你将学习如何对你的数据进行统计分析。

四、应用统计分析

数据科学团队将花费大部分时间收集和存储数据，然后使用这些数据提出问题。他们使用统计学和数学创建报告，看看是否能得到答案。统计学是一个非常有趣的领域。要加入数据科学团队，您需要对该语言有一些基本的了解。在探索统计分析时，您需要熟悉几个术语。它们是:

描述性统计:以有意义的方式分析、描述或总结数据以发现数据模式的过程。
概率:某事发生的可能性。
相关性:衡量两个事物相关程度的一系列统计关系。通常用 1 或 0 之间的数字来衡量。
因果关系:一个事件是另一个事件发生的结果。
预测分析:对历史数据进行统计分析，以预测未来。

我们将在接下来的章节中更详细地讨论这些问题。当您阅读这些部分时，一定要寻找更多的统计分析术语。

从描述性统计开始

统计数据是讲述故事的工具，但它们本身并不是故事的结尾。当事情看起来不太对的时候，最好的方法就是回推。

我儿子曾经给我讲过一个关于这个的笑话，这个笑话展示了团队如何利用统计数据来讲述故事。他问:“为什么你从来没见过大象藏在树上？”我耸耸肩，他说:“因为他们真的很擅长。”当你看你的报告时，试着记住这个笑话。人们通常认为统计学是具体的数学。谁会质疑二加二等于四？事实上，统计更像是讲故事。像任何故事一样，它可以充满事实、虚构和幻想。如果你不知道去哪里找，你可以藏起一些相当大的大象。

你会看到这一点的一个地方是政治。一位代表可能会说，“在过去的四年里，选民的平均工资增加了 5000 美元。“人们会鼓掌。挑战者可能会说他们不应该鼓掌，并指出“典型的中产阶级家庭现在的收入比四年前少 1 万美元。“谁说的是实话？答案是两个都有。他们只是用统计数据来讲述不同的故事。一个故事讲繁荣，另一个故事讲失败。他们俩都是真实的，然而他们俩都没有说出全部真相。你必须在这些故事中找到大象。

在这种情况下，代表们使用描述性统计。他们试图在不与每个家庭交谈的情况下描述所有选民的情况。他们正在创作一个典型家庭的故事。

一个代表使用了一种叫做平均值的东西。这是最有用和最流行的描述性统计之一。你可以看到它被用于平均绩点、体育成绩、旅行时间和投资。在这个例子中，代表将每个家庭的收入相加，然后除以家庭总数。果然，每个家庭多赚了大约 5000 美元。

但是坚持住。平均并不是描述一个典型家庭的唯一方式。竞争代表有另一种方法。她使用家庭收入中值。中位数描述了一个处于中间的家庭的收入。为了找到这个数字，你从最低到最高排列所有的家庭，然后从上到下编号。你把排名一分为二就找到了中间的数字。中间的家庭有中等收入。

竞争代表发现中位数收入少了 10，000 美元。这表明平均家庭收入增加了 5，000 美元，但中位数家庭收入减少了 10，000 美元。这是同一个家庭有不同故事的两个描述，如图 4-1 。

图 4-1。

Different stories for the same families Note

查看如何在 http://ds.tips/c6Aha 创建这些图表。

当你看到这个的时候，记得去找那头大象。当中位数和平均数之间有很大的差异时，通常意味着你的数据是有偏差的。在这种情况下，想象一下一些家庭非常富有。在过去的几年里，他们的收入大幅增加。这带来了数百万美元的额外收入。这些家庭会歪曲数据，因为顶端有一大笔钱。这将提高平均值，但不会真正影响中位数。也就是说，他们的收入会像其他人一样加起来。在中间值，他们可能只是在排名的顶端。中间点的家庭实际上一点也不会改变。

你会在其他方面看到中位数和均值的挑战。如果有两个人站在一个房间里，他们的平均身高可能略低于 6 英尺。如果一个篮球运动员走进房间，他们的平均值可能会增加一英尺。中值高度将大致保持不变。

在您的数据科学团队中，当您看到使用统计数据讲述的故事时，不要害怕提问。此外，尽量确保您的报告使用不同的方式来描述数据。描述性统计可以讲述许多不同的故事。

理解概率

概率是统计学中另一个可以让你讲有趣故事的领域。概率是某事发生的可能性。这是对可能结果的衡量。如果你掷硬币，概率给出硬币落在一边或另一边的可能性。概率统计侧重于概率分布。如果你掷出一个六面骰子，这意味着有六种可能的结果，任何数字出现的可能性是六分之一。这意味着每次你掷骰子，你有大约 17%的机会击中一个特定的数字。概率也可以表示一系列事件。如果你想显示连续两次击中同一个数字的可能性呢？这是 17%中的 17%，大约是 3%。如果你在玩掷骰子游戏，这种概率相当低。您的数据科学团队肯定希望与概率打交道。这是预测分析的关键部分。它帮助你计算出你的客户做一件事比做另一件事的可能性。

我曾经与一家生物技术公司合作，该公司试图利用数据科学来预测某人参加临床试验的可能性。让人们参与临床试验是一件棘手的事情。有一定数量的诊所，公司需要让它们继续运营——即使它们是空的。如果他们不填满，公司就会损失收入。

他们问的一个有趣的问题是，“阻止人们参与临床试验的一些因素是什么？”事实证明，有很多事情可能会降低人们参与的可能性。如果人们不得不在前一天晚上禁食，他们可能会减少 30%的参与。另外，如果有验血和打针，可能会少 20%参加。图 4-2 是一个流程图，展示了事前出勤、检测、恐血之间的三向关系。

图 4-2。

Three-way relationship between prior attendance, testing, and fear of blood Note

参见如何在 http://ds.tips/V2tup 创建此图表。

该公司必须权衡人们参与的可能性和结果的准确性。例如，有一个药物试验，公司可以通过唾液测试或血液测试来检查药物的有效性。验血有 10%的可能性是准确的。这很容易；他们应该直接用验血。但是坚持住。如果他们进行血液测试，他们的参与者将减少 20%,因为有些人因为害怕针头而决定不做这项研究。如果他们想要 1000 名参与者，那就意味着少了大约 200 人。

这引出了另一个有趣的问题。如果测试少了 200 人，这是否意味着他们的药物试验不太准确？数据科学团队创造了另一种概率分布。如果药物有 1/500 的几率引起某种类型的反应呢？你对 1000 个人的研究比你对 800 个人的研究要好得多。

数据科学团队必须考虑到这一点。即使唾液测试不太准确，让更多的人不用针头参与研究是不是更好？这引发了更多的问题。团队是否应该让参与者进行几次唾液测试，以增加获得准确结果的可能性？最终，这就是数据科学团队帮助公司做出的决定。也许最好是让尽可能多的人参与试验，以增加发现药物反应的可能性。然后，他们可以更频繁地执行不太准确的测试，以增加获得准确结果的可能性。这将允许公司最大限度地参与，同时增加他们研究的准确性——所有这些都是通过概率的力量带给你的。

当您在数据科学团队中从事概率工作时，有几件事情需要记住。首先是概率会把你带到一些意想不到的地方。谁会想到医疗实践可能会通过实施不太准确的测试获得更好的结果？第二，概率也可以是提出有趣问题的重要工具。如果你的问题只是引出更多的问题，不要气馁。

请记住，数据科学涉及将科学方法应用于您的数据。有时候这条路会把你带到意想不到的地方。重要的是当道路急转弯时不要跳下来，这在你处理概率时很容易发生。那些急转弯往往是通向你最大洞察力的道路。

寻找相关性

相关性是数据科学中另一个非常有趣的领域。许多公司用它来猜测你会买哪些产品。它也用来联系你的朋友和熟人。如果你使用像网飞这样的服务，你可能会惊讶于网站能如此准确地猜出你喜欢什么电影。亚马逊多年来一直使用相关性来推荐书籍。

相关性是衡量两个事物相关程度的一系列统计关系。通常用 1 或 0 来衡量。如果两件事密切相关，那么相关性为 1。如果两件事没有关系，那么相关性为 0。1 可以表示为正数或负数。A -1 是典型的逆相关或反相关。

正相关可能是身高和体重。如果一个人个子高，他或她可能会更重。随着高度的增加，重量也增加。还有更直白的例子，比如外面温度越高，买冰淇淋的人就越多。随着气温的上升，冰淇淋的销量也会上升。负相关可能类似于汽车和汽油。汽车越重，越不可能获得好的油耗。随着汽车重量的增加，耗油量会减少。他们有一种相反的关系。

如果你是一名跑步者，你可能会注意到上坡时跑得更慢了。这也是一种负相关。坡度越陡，你跑得越慢。坡度越大，你的速度越慢。

正相关和负相关都是观察两个事物之间关系的好方法。负相关不是坏事。这只是另一种关系。

数据科学团队将在他们的数据中寻找相关性。他们会尝试微调人与物之间的任何关系。幸运的是，软件工具可以处理计算相关性背后的大量数学运算。一个常用的公式是相关系数，它是 1、0 和-1，表示人和事物之间是否存在统计关系。

当计算相关系数时，你通常不会得到一个好的、整洁的整数。相反，你可能会发现 0.5 或 0.75 的相关性。这表明相关性更强或更弱，你越接近 1 或-1，关系越强。

一个有趣的数据科学挑战是 LinkedIn 的“你可能认识的人”功能。LinkedIn 希望找到一种方法来确定专业人士何时相互认识。有数据科学团队处理 LinkedIn 数据，寻找联系之间的相关性，然后试图找出它们为什么联系在一起。这种联系可能是因为他们上过的学校、共同的工作或共同的团体和兴趣。

这个数据科学团队寻找正相关和负相关。他们可能会在网站上找到信息，显示你在某家公司工作，并且你对某个工作感兴趣。然后他们会找到对同一份工作感兴趣并在同一家公司工作过的其他人。这足以在你和另一个人之间建立关联；因此，网站可能会建议您与此人建立联系。

数据科学团队还可以在你的人脉和其他人的人脉之间建立关联。如果你和一个人有联系，而他们又和一个和你有相似技能的人有联系，你们可能会有很好的联系。仔细想想，这很有道理。你更有可能认识在同一栋办公楼工作的人。你也更有可能和有相似兴趣和技能的人联系在一起。随着相似技能数量的增加，你认识那个人的可能性也会增加。

相关性也有能力帮助你的团队质疑它的假设。你可能会认为在你的网站上花钱最多的人也会是你最快乐的顾客。事实可能并非如此。事实上，两者之间可能存在负相关。也许花钱最多的人实际上有着最不切实际的期望。他们更容易失望，也更有可能留下负面反馈，如图 4-3 所示。

图 4-3。

Sentiment score over time Note

访问者在网站上花的时间越多，情感得分就越低。参见如何在 http://ds.tips/pawR7 创建此图表。

作为一个数据科学团队，您将使用相关性来测试您的假设。你可能会寻找策略让你最快乐的人花更多的钱。你也可以想办法管理高消费群体的期望。如果你寻找这些相关性，你会发现很多你可能会忽略的东西。

看到相关性并不意味着因果关系

相关性是一个很好的工具——它帮助你看到你可能看不到的关系。但是也有不好的一面。你得看看这种相关性是否导致了某些事情的发生。这是引起变化的原因吗？一般来说，相关性并不意味着因果关系。第三件没有被考虑的事情可能会影响两件事情之间的关系。对于数据科学团队来说，找出因果关系是一个巨大的挑战。你不想建立不存在的关系。

这么想吧。我在该国较冷的地区长大。当我的父母长大后，他们搬到了佛罗里达州南部。他们现在幸福地生活在一个阳光明媚的退休社区。每隔几个月，我的家人都会去佛罗里达拜访。据统计，他们的社区是地球上最危险的地方之一。我们每次探访，都有人在住院或者更糟。他们的社区和死亡或严重伤害之间有很强的相关性。你可能会认为因为这个我永远不会去看望我的父母。这听起来像每个第一人称射击游戏的开场场景。

然而，我们忽略了这种相关性。我们经常去看他们，感觉非常安全。因为相关性并不意味着因果关系。真正的原因是年龄中位数高得多。退休社区中的老年人受伤或死亡的概率更高。如果你看到这种相关性，你会认为他们生活在战区。你永远想象不到他们会在泳池边平静地打麻将。

想想你的数据科学团队可能也应用这些概念。让我们回到我们的跑鞋网站。假设团队发现一月份的销售额大幅增长。一月和买新鞋的人数之间有很强的相关性。

团队聚在一起了解原因。他们问了一些有趣的问题。人一月钱多吗？最冷的月份跑步的人多吗？这些是第一次跑步吗？他们是新客户吗？他们在买什么样的鞋？

团队讨论问题并决定创建报告。报告显示，这些顾客大多是购买昂贵鞋子的新顾客。因为这些报告，团队认为新销售的原因是新客户在一月份有更多的钱。也许他们收到了购物卡。

第二年，团队决定利用这种因果关系。12 月，他们提供打折礼品卡。他们还向去年的新客户发送促销信息。几个月后，团队查看数据。他们发现他们的促销和折扣没有影响。大致相同数量的人买了相同数量的鞋子。更糟糕的是，去年的新客户似乎对新跑鞋毫无兴趣。因此，有更多的钱并不是相关性的原因。数据科学团队回到他们最初的问题，并运行了几个报告。他们发现，这两年所有的新销售都是针对新客户和首次跑步者的。为什么在最冷的几个月会有大量新顾客购买昂贵的跑鞋？

该团队对此进行了思考，认为原因可能是行为上的。他们提出了一个新问题。所有的新顾客都是因为新年决心而努力减肥的人吗？他们回去创建报告，如图 4-4 所示。报道称，他们都是新客户，购买了一双鞋，然后在年中停止访问该网站。这表明他们买了昂贵的鞋子，然后放弃了。该团队猜测，昂贵的鞋子可能是继续跑步的动力。第二年，他们决定创造一个新的促销活动。它围绕着新年决心。他们发出一封邮件，上面写着:“你想保留你的新年决心吗？”它提供免费的跑步指南和健身追踪器，以此来保持人们的兴趣。

图 4-4。

January 2015 and 2016 reports Note

2015 年 1 月和 2016 年 1 月的销售额和总收入分别位居第一和第二。在这两年中，一月份每双鞋的平均价格最高。该公司在 2016 年提供了更多的礼品卡折扣，但这并没有促进销售。2015 年回头客数量和 2016 年新增客户数量均为历年最低。2015 年 1 月和 2016 年 1 月，约有 15%至 20%的买家是首次跑步者。他们平均买了 1 到 1.5 双鞋。当您深入查看首次跑步者细分市场的客户行为时，总销售额在 1 月份达到峰值。他们中的一些人在第四季度回来，但大约一半的人再也没有回来。参见如何在 http://ds.tips/fe2Ax 创建此图表。

相关性和因果关系是大多数数据科学团队面临的主要挑战。制造虚假关系是真正的危险。在统计学中，这被称为虚假因果关系。如你所见，找到真正的原因会给你带来更大的价值。避免虚假因果关系的最好方法是遵循科学方法。记得提出好的问题，并对结果保持清醒的头脑。

预测分析的组合技术

到目前为止，你所看到的一切都是关于过去的。您已经看到了如何收集不同的数据类型，然后执行统计分析。这些统计数据是获得更深刻见解的起点。您的数据科学团队将开始创建相关性，并查看某些事件的概率。现在，让我们用这些想法来预测未来——通常称为预测分析。这个术语与数据科学密切相关，以至于它们有时甚至可以互换使用，但是它们并不相同。预测分析是一种数据科学。数据科学是将科学方法应用于您的数据，而预测分析会获取该结果并使其具有可操作性。

这么想吧。气象学是一门科学。这些科学家研究物理、风速和大气。如果你和一位气象学家在外面，他或她会向你解释为什么云看起来像某种样子，以及压力如何决定它们的运动。这是气象学的科学方面。而是了解天气，看到历史趋势。更普遍的气象学观点并不围绕科学；相反，它与天气预报有关。

天气预报是指一组气象学家使用预测分析。他们可以使用历史数据来分配概率，并使用概率和相关性来预测天气模式。低压系统和强风暴之间可能有关联。随着气压的降低，风暴的强度增加。气压和风暴之间存在正相关关系。

所有这些分析综合起来，气象学家就可以回答一个简单的问题:明天天气会怎么样？曾经的理解过去现在变成了对未来的预测。

目前，人们对预测分析越来越感兴趣，因为新的工具和技术允许更有趣的见解。想想天气预报。目前，气象服务仅限于几千个气象站的历史数据。想象一下，气象局发出了数百万个低成本的信标。人们会把它们安装在家里，并连接到他们的无线网络。这些设备将记录气压和温度信息，以及视频和音频，然后将数据上传到全国 Hadoop 集群。这将给科学家提供前所未有的信息。

这就是预测分析与数据科学如此紧密相关的原因。更大的数据量允许团队提出有趣的问题。然后团队可以执行复杂的分析。在这里，团队将能够逐屋逐街区地观察天气模式，然后基于数百万个家庭创建复杂的预测模型。

你的团队也是如此。想想跑鞋网站。想象一下，你的团队收集了数百万条关于跑步的推文。该团队在 Twitter 上发现了一些有影响力的跑步者。然后你可以送他们免费的鞋子或促销商品，希望他们会说你公司的好话。您还可以使用这些数据来识别关键的跑步事件。

这些新工具允许数据科学团队获得更大的数据视图，并实时查看信息波。气象学家可以分析数十亿字节的信息，跑鞋网站团队可以分析数百万条推文。

组织通常对预测分析的想法非常兴奋，以至于他们并不总是投入足够的时间来发展他们的数据科学团队。他们想在不了解现有数据的情况下直接进行预测。当你在数据科学团队工作时，一定要传达预测的质量取决于团队对数据的分析程度。

你的团队必须了解过去才能预测未来。不要欺骗你的分析。对您的数据提出好的问题，并使用您的统计工具来创建有趣的报告。一旦你做到了这一点，你对未来的预测就更有可能准确。

摘要

在本章中，您学习了描述性统计、概率、相关性、因果关系和预测分析。您还学习了如何在您的数据科学故事中使用统计数据。在第五章中，您将学习如何在开始使用数据科学时避免陷阱。

五、避免定义数据科学的陷阱

在整本书中，我在每一节的末尾都包括了避免陷阱这一章，以帮助您将这些想法应用到您的组织中。在大多数组织中，新想法和事情将如何发展之间经常会出现一些小问题。您可能不会遇到这些挑战，但它们对许多组织来说是常见的。

关注能力

数据科学的关键挑战之一是我所说的“梦的集群”它是根据电影《梦想之地》改编的，由凯文·科斯特纳主演，他扮演一个花了毕生积蓄在玉米田里建造棒球场的男人。老球员的鬼魂拜访他，告诉他完成棒球内场。他们说，“如果你建造了它，他们就会来。”

许多组织陷入了同样的陷阱。他们将精力集中在构建硬件和收集海量数据上。他们在软件上进行大量投资，以便在大型数据集群上运行。他们的梦想是，如果他们有足够的硬件和软件，他们将获得有价值的见解。(如果他们建了，他们会来的。)

仔细想想，这很有道理。许多组织拥有交付成功硬件项目的丰富经验。这是他们知道如何做的事情。他们很擅长这个，而且已经做了几十年了。硬件是真实的，你可以看到你得到了什么。勘探更难量化。它没有完全符合项目流程的投资回报。你只有在做过之后才知道是否值得。数据科学是新生事物，在许多组织中，花钱探索和提问并不容易。

众所周知，国会图书馆启动了一个收集 1700 亿条推文的项目。他们想展示他们可以使用数据科学。他们购买了硬件来存储推文，但他们没有任何计划来处理这些数据。他们也不能让任何人接触这些数据。他们认为如果他们建造了它，他们就会来。不幸的是，这些数据闲置在数百台服务器上。这是数据收集的丰碑。

这似乎是一个极端的情况，但它是非常普遍的。组织专注于构建能力。他们的目标是在 Hadoop 集群中设置一定数量的节点，并使用一套可视化工具。预算投入到硬件和软件中，数据科学团队所剩无几。

我曾经为一个组织工作，该组织试图使用大数据集群来取代他们的数据仓库。他们习惯于在硬件和软件上花费数百万，然后他们会雇佣仓库专家来维护他们的投资。当他们转向 Hadoop 时，他们也有同样的心态。他们启动了一个数百万美元的项目来创建三个独立的集群。全部预算都花在了服务器和软件上。

两年后，他们有了三个集群，但只有少数人知道如何访问数据。更糟糕的是，这些人分散在几个不同的职能领域。他们在硬件和软件上投入了数百万美元，但没有数据科学团队来分析数据和获得洞察力。项目进行几年后，集群只有几兆字节的数据——大约相当于你花几百美元就能在一个硬盘上存储的数据量。只有少数人访问这些数据来为一两个部门创建一些简单的报告。

有几件事要记住，以免落入这个陷阱。首先，数据科学团队是探索性的。他们通过查看数据来寻找见解。数据不是产品；这是来自数据的洞察力。拥有最大的集群没有奖励。

尽管数据科学团队可能会花大部分时间收集数据，但这并不意味着你的所有价值都来自于收集。就像有厨师刀也不能让你成为厨师一样。大数据收集并不能让你成为一个数据科学团队。而是你提出的问题和组织知识的创造。

大多数数据科学团队会使用几种不同的软件工具。(有时他们会想用 R 而不是 Python 在像 MySQL 这样的关系数据库中保存一小部分数据可能更容易；并且他们可能使用不同的可视化工具)。给你的团队灵活探索的机会。通常，一个数据科学团队使用几个免费工具可以完成比一项大投资更多的工作。

科学团队应该在需要时开发工具。好的数据科学团队会很乱；他们将使用许多不同的工具和技术来争论和清理他们的数据。

投资培训和专业知识，而不是硬件和软件。数据科学团队中最有价值的部分是提出有趣问题和传授新知识的人。

摘要

在本章中，您了解到组织关注能力可能是一个错误。公司应该更加关注员工的培训和专业知识，而不是收集数据所需的硬件和软件。在第二部分中，您将学习如何建立您的数据科学团队，从第六章中的发挥您的才能开始。

六、完善你的才能

我们在第二章中定义了数据科学，并讲述了成为“数据科学家”意味着什么在这一章中，你将看到如何把这个角色分成几个团队角色。然后，您将看到这个团队如何共同努力建立更好的数据科学思维。

透视数据科学家

正如您在第二章中了解到的，围绕数据科学家的角色存在一些困惑。2001 年，威廉·s·克利夫兰出版了《数据科学:扩大统计领域技术领域的行动计划》。 ¹ 这篇论文首次将统计学和计算机科学领域融合在一起，创建了一个新的创新领域，称为“数据科学”与此同时，Leo Breiman 出版了《统计建模:两种文化》， ² 描述了统计学家应该如何改变他们的思维模式，采用一套更加多样化的工具。这两篇论文为数据科学奠定了基础，但它建立在统计学领域之上。

2008 年，来自脸书和 LinkedIn 的一些顶级数据专家聚在一起讨论他们的日常挑战。他们意识到他们在做类似的事情。他们认为自己的角色是许多不同学科的交叉。他们决定称这个角色为“数据科学家”

当时的数据科学家只是一个素质列表。例如:

理解数据
懂统计学和数学
应用机器学习
懂编程
好奇
成为伟大的沟通者和黑客

他们是文艺复兴的狂热分子，跨越了许多不同的领域。

问题是，这个技能列表不容易在一个人身上找到。我们每个人都根据自己的天赋倾向于某些领域。我们通常被自己的天赋所吸引，然后努力完善自己的技艺。统计学家通常会努力成为更好的统计学家。业务分析师将努力提高他或她的沟通技巧。专业化也有很大的组织压力。大多数大型组织都划分为不同的职能领域。需要一些共同的理解，但不总是共同的专业知识。

众所周知，人们也不善于自我评估自己的能力。著名的邓宁克鲁格研究 ³ 发现，认为自己技术高超的人通常会戏剧性地高估自己的专业知识。一个有天赋的统计学家可能认为自己是一个优秀的沟通者，但是你不需要成为一个优秀的沟通者来成为一个伟大的统计学家。一个伟大的统计学家可以轻松地拥有漫长的职业生涯，即使他或她在演讲中笨手笨脚。

这就是为什么大多数组织将工作分成小组。团队中的每个人都有自己的专业领域。跨职能团队不会假设每个人都是专家。相反，它鼓励个人取长补短。数据科学家团队可能无法识别这些弱点。如果没有人识别盲点，团队就会盲目摸索。

我曾经为一个组织工作，该组织有一个数据科学家团队正在构建一个集群。企业有一些担忧，因为高层不知道团队在构建什么——他们感到沮丧，因为他们在为他们不理解的东西付费。我参加了一些会议。数据科学家团队演示了一个简单的 mapReduce 工作。业务经理们茫然地盯着屏幕，偶尔瞥一眼他们的智能手机。对于一个局外人来说，从打哈欠和揉眼睛来看，这个团队显然没有做好沟通工作。

会后，我在白板上写了一个矩阵。我列出了以下六种技能:

数据
发展
机器学习
统计数字
数学
沟通

我请数据科学家从 1 到 10 (1 为差，10 为最好)对他们在这些方面的表现进行评分，以便我们寻找需要改进的地方。我拿着同样的技能列表，给其中一位业务分析师看。我让他们给这个团队打分。

结果如表 6-1 所示。

表 6-1。

Data scientists’ and business analysts’ ratings

| 技能组合 | 数据科学家的评级 | 商业分析师的评级 | | --- | --- | --- | | 数据 | eight | Ten | | 发展 | seven | nine | | 机器学习 | six | eight | | 统计数字 | eight | nine | | 数学 | eight | Ten | | 沟通 | nine | six |

这是典型的邓宁·克鲁格结果。在数据科学家认为自己技术高超的地方，他们大大高估了自己的专业知识。数据科学家都来自定量领域。他们是统计学家、数学家和数据分析师。他们无法识别自己的盲点。需要一个完全不同领域的人来照亮他们的挑战。

如果你是一个试图从数据科学中获取价值的大型组织的一部分，那么依赖少数超级数据科学家将是一个错误。来自相似背景的人往往会有相同的盲点。学术研究表明，你通常会从背景各异的跨职能团队中获得更好的见解。 ⁴

在我们兼收并蓄的组织结构中有一些智慧。具有市场营销、商业和管理背景的人应该在数据科学领域占有一席之地。假设具有量化背景的关键人物会有相同的问题和见解是不现实的。让你的团队多样化，你更有可能取得好成绩。

看到不同技能的价值

你的数据科学团队面临的危险之一是过于强调数据科学家。请记住，数据科学家是多学科的。他们应该了解统计学、数学、开发和机器学习，同时了解客户并提出有趣的问题。大多数数据科学家来自工程、数学和统计背景。这意味着他们可能会分享相似的提问方式，并从共同的角度看待数据。

从事数学和统计工作的人不太可能像从事市场营销工作的人那样了解客户。成为一个领域的专家并不意味着在另一个领域也有专长。

许多自称多学科的人通常拥有一些非常强的技能和其他领域的知识。如果你在很多领域都非常自信，你可能会有很大的技能差距。这也意味着，一个只有数据科学家的团队可能会有类似的盲点，容易出现群体思维。

防止这种情况发生的一种方法是允许具有其他背景的人加入您的数据科学团队。请记住，好的数据科学依赖于有趣的问题。没有理由为什么这些有趣的问题只能来自分析数据的人。

想想你的跑鞋网站。数据分析师应该不难找到将客户推荐到商店的网站。假设大部分客户来自 Twitter、Google 和脸书。也有不少顾客来自其他跑鞋网站。一个好的数据分析师可以很容易地创建一份客户在向您购买之前访问的前 50 个网站的报告。试图找出人们来自哪里是一个很好的分析问题。它是关于收集数据，统计数据，并显示在一个漂亮的报告中，如图 6-1 所示。

图 6-1。

Referral-site total visits and referral type Note

脸书、Twitter 和 Instagram 似乎在付费和有机流量方面都带来了巨大的流量。Pinterest 为其他网站带来了相当数量的流量，但大约一半的流量来自付费广告。查看如何在 ds. tips/ fRa4a 创建这些图表。

数据科学团队更深入。团队可能会问，为什么来自 Twitter 的人比来自 Google 的人多？人们在发鞋子的照片吗？如果我们在 Twitter 上购买广告，会有多少人访问这个网站？一个网站比另一个网站更适合发布新产品吗？如果人们看到一只鞋的照片，他们会更有可能访问这个网站吗？这些问题与数据是分开的。商业分析师、营销专家或项目经理没有理由不能问这些问题。

一项对经济系的研究表明，当不同学科的人合作时，他们更有可能产生更高质量的出版物。意见的多样性有利于他们工作的数量和质量。此外，来自不同背景的人更有可能不同意。意见不一致导致每个人都更加努力。最终，这使得每个人的论点更加有力。如果团队中的每个人都很容易就最佳问题达成一致，那么你可能没有问出非常有趣的问题。

当您创建数据科学团队时，请尝试包含来自组织不同部门的许多人。您希望您组织中的每个人都考虑如何更加数据驱动。如果你只为你的团队雇佣数据科学家，你可能会让数据科学看起来像一门黑暗的艺术——只有少数高技能人才应该尝试。这将使您的数据科学缺乏创造性，并与组织的其他部分脱节。

在您的数据科学团队中，将分析与洞察分开非常重要。数据分析师捕获、计算并呈现数据。获得洞察力要难得多。你需要遵循提出有趣问题和寻找结果的科学方法。不要让你的团队只出数据分析。你希望他们更加努力。很可能来自业务部门的某个人会推动团队提出更多有趣的问题。营销团队中的某个人也可能会对您的客户有一些有趣的问题。

一些组织已经开始朝着这个方向发展。LinkedIn 等公司创建了数据墙，显示来自数据分析师的不同报告和图表。这些信息墙允许组织中的所有人查看数据中是否有任何有趣的东西。营销助理可能会看到一个有趣的故事，或者人力资源实习生可能会想到一个有趣的问题。这是从组织的其他部门获得反馈的好方法。

一些组织更进一步，确保每个数据科学团队都有一名来自营销和项目管理办公室的代表。这可以确保您的数据科学团队中有人专门为客户着想，也有人了解如何为组织的其他部门提供价值。

创建数据科学思维模式

与数据科学团队相关的一个术语是“数据驱动”这是一个有点棘手的术语。我们都喜欢用数据来驱动我们的决策。如果你决定不吃加油站的寿司，这是基于真实数据的。你在利用过去的经验和一些观察来做出一个好的决定。通常情况下，你的直觉是正确的——或者至少有一半是正确的。尽量不要把数据驱动的决策看作是你自己直觉的替代物。数据驱动的文化使用数据来增强团队的直觉，而不是取代它。

您的数据科学团队将是创建与数据有更深关系的更大数据科学思维的起点。试着将数据驱动型组织想象成拥有许多数据科学团队的公司，这些团队强化了数据科学思维模式。这些团队创造了一种问题和洞察力的文化。他们不仅应该帮助组织收集数据，还应该使数据具有可操作性。

数据科学团队将有三个主要职责领域。这三个领域为您的数据科学团队奠定了基础，这将有助于您组织中的其他人接受这种新的思维模式。它们是:

收集、访问和报告数据(基础工作):这包括将原始数据处理成其他人都能理解的东西。
问好问题:这推动了有趣的数据实验，并且可能来自不一定具有技术背景的团队成员。他们可能来自商业、营销或管理部门。他们提出有趣的商业问题，并促使每个人质疑他们的假设。
使数据具有可操作性:这将是团队成员的责任，他们主要关心团队学到了什么，以及如何将这些数据应用到组织中。

我曾经在一家零售机构工作，销售家用五金和建筑用品。该公司维护了几个呼叫中心，因为许多客户更喜欢通过电话订购，而不是使用移动应用程序。

该公司刚刚开始研究数据科学，并希望数据科学团队了解为什么这些客户更喜欢打电话，因为维护呼叫中心的成本很高。此外，通过电话接受的订单更容易出错。数据科学团队有三个人:理解数据的人、业务分析师和项目经理。他们三个聚在一起，试图理解为什么这些客户更喜欢打电话。

业务分析师是第一个开始提问的人。这些客户有通过手机订购的账户吗？他们是专业人士还是住宅客户？他们花了多少钱？

然后，团队创建了数据报告，如图 6-2 所示。数据显示，大多数人都是专业人士，他们经常通过移动设备下几个订单。他们通过呼叫中心下的订单比通过移动应用程序下的订单少得多。大约 80%的交易金额低于 20 美元。业务分析师提出了后续问题，“为什么我们一些最忠诚的专业客户打电话来订购低于 20 美元的订单？”

图 6-2。

Data reports for sales channels Note

大部分订单都是组织下的；然而，大多数通过电话下单的都是个人。在所有类别中，通过个人电话下单的平均总价值最低。查看如何在 http://ds.tips/3uprU 创建这些图表。

在查看数据并与一些客户服务代表交谈后，他们发现这些客户打电话是因为他们需要一个小零件来解决一个大问题。当这些专业人员在工作现场时，客户服务代表正在查找该零件。电话中的大部分时间都花在了描述、识别和加速他们需要的关键部分上。

这个小组尝试了一个实验。他们联系了一些大批量的专业客户，要求他们在需要紧急零件时发送一张图片。他们称之为“Pic-it-Ship-it”计划。他们希望这能提高客户满意度，减少花在电话上描述零件的时间。

数据科学团队很小，但他们仍然涵盖了所有三个责任领域。他们收集了数据并创建了有趣的报告。业务分析师问了一些有趣的问题，并对客户有了一些了解。最后，项目经理组织了一个实验，并开始了一个小的试验计划。他们收集新数据，提出有趣的问题，并使这些见解具有可操作性。

在数据科学团队进行这些实验之前，该组织总是假设这些人是小钱的住宅客户，他们在电话上比在移动应用程序上更舒服。他们的直觉只是部分正确。大多数打电话的人实际上都是他们最有价值的客户。多元化团队的数据科学思维带来了更好的见解。

摘要

在本章中，您探索了数据科学团队中的角色。你发现了什么样的技能可以发挥作用。您还看到了如何培养数据科学思维。在第七章中，你会发现如何组建你的团队。

Footnotes 1

数据科学:扩展统计学领域技术领域的行动计划。《国际统计评论》69，第 1 期(2001 年):第 21-26 页。

布雷曼，利奥。"统计建模:两种文化(作者的评论和反驳)."统计科学 16，第 3 期(2001 年):199-231。

克鲁格、贾斯汀和大卫·邓宁。"不熟练并且没有意识到:认识到自己的不称职是如何导致自我评估膨胀的."人格与社会心理学杂志 77.6 (1999): 1121。

博斯克特、克莱门特和皮埃尔-菲利普·库姆斯。“大系会让学术更有成果吗？研究中的聚集效应和同伴效应。”空间经济研究中心讨论文件，第 133 号(2013 年)。

七、组建团队

拥有数据科学思维既是一种组织挑战，也是一种文化挑战。不是雇几个数据分析师那么简单。您希望您的整个组织以创造性和有趣的方式思考您的数据。数据分析师将帮助你分析你的数据，但他们可能不是新见解的最佳来源。正如在第六章中提到的，你应该把数据科学看作是一个团队的努力——不同背景的小团体用你的数据进行实验来创造知识。那是数据科学中的科学方法。这是一个经验性的探索过程。你会问好问题，收集证据，并试图得出结论。

与其找几个什么都能做的人，不如和你现有的能做大部分事情的人一起工作。我认为一个行之有效的模式是将您的数据科学团队分成三个角色:

研究领导
数据分析师
项目管理人

我在不同的组织中见过这三种角色。他们可能有不同的名字，但他们期待完成同样的事情:问好问题，收集证据，并试图获得洞察力。我们将在接下来的章节中更详细地介绍每一个角色，然后我们将讨论他们如何在团队中合作。

利用研究线索提出好问题

阿尔伯特·爱因斯坦说过，如果他有一个小时来解决一个问题，他会花前 55 分钟去寻找正确的问题。问题是发现的关键。这使得他们对于数据科学团队来说至关重要。问题是你获得新见解的最重要的驱动力。数据科学中“科学”的关键部分是找到正确的问题。

你已经有数据了。您的组织可能正在收集比您需要的更多的数据。在许多方面，你已经收集了答案。现在你必须提出正确的问题。对于大多数组织来说，这不是一件容易的事情。我们仍然为渴望答案的公司工作，因为答案结束了讨论。你从会议中解脱出来，开始将一些事情付诸实践。这就是为什么组织倾向于青睐专家。他们提供了答案。答案是最终的和封闭的；问题是开放式的。另外，一个好的问题可以引出更多的问题。

这就是为什么数据科学团队应该依靠只专注于提问的人。这个人应该了解业务，但他或她也需要走出业务。对于这个角色，我听过的最好的名字之一是研究领导。它抓住了人的主要责任:引导提问和推动研究。

研究负责人应该来自业务部门，推动团队提出有趣的问题。她应该从与团队一起提出问题或确定关键问题开始。她可以把它们贴在问题墙上，或者整理成便利贴。

研究负责人有三个方面的责任:

确定假设
驱动问题
了解业务

这三个领域密切相关。作为一名研究主管，有时你不得不跳出你的经验，像第一次看到业务一样去处理它。这需要一些努力，你必须致力于采取新的视角。

当有一个有趣的问题时，一个好的研究领导者会凭直觉知道。杰森·斯蒂芬博士就是这样。 ¹ 他是一位天体物理学家，也是一位经常旅行的人。他发现自己排在等待登机的长队中。大多数人只是接受这是旅行的一部分。Steffen 博士非常了解飞行这一行，他意识到让乘客排长队是低效且昂贵的。他问了一个简单的问题，“有没有更好的登机方式？”他的科学背景帮助他想出了一个解决方案。他想象人们平行登机，每隔一排跳过一排。这比目前让人们一次一个人排队的方法要有效得多。(不幸的是，由于各种原因，这种做法还没有实施。)

Steffen 博士经历了一个好的研究领导者的所有三个行动。他对这个行业有一些了解。他知道飞行。他能够质疑自己的假设。数百万人在他面前排起了长队，没有对登机过程进行第二次思考。最后，他提出了一个简单的问题:有没有更好的办法？

你不一定要成为科学家才能想出有趣的问题。一个研究领导应该对业务有所了解，但是这个人不需要成为专家。例如，爱德华·兰德发明了宝丽来即时照相机，因为他受到了他三岁女儿的一个问题的启发。当他们在新墨西哥度假时，他用一架普通照相机拍了一张照片。他的女儿只是问，“为什么我们要等照片？”他的女儿质疑一个简单的假设。

这两个问题开启了有趣的探索之路。Steffen 博士想出了一种让人们登机效率提高 30%的方法，Edward Land 创造了一种即时相机，这是 20 世纪最具创新性和最漂亮的技术产品之一。

研究领导角色的最有帮助的组成部分之一是它将问题与数据分开。问好问题本身没有什么技术含量。记住，爱德华·兰德的女儿只有三岁。

将提出问题的人和寻找可能答案的人分开也有很多好处。这有内在的利益冲突。如果你只有一个很小的数据集，你可以把自己限制在简单的问题上——那些你已经可以用你的数据来回答的问题。一条好的研究线索可能会让你重新思考你收集的数据类型。最后，那更有价值。

向数据分析师展示数据

你的团队需要优秀的数据分析师。数据分析师负责理解数据，获取和清理数据，然后在简单的报告中显示数据。他们应该与研究线索一起工作，看看报告中是否有什么发现。他们还应该推荐统计方法或创建数据可视化。研究负责人和数据分析师将携手构建见解。研究主管专注于提出最佳问题，而数据分析师则试图提供最佳报告。

围绕不同的数据工作头衔有很多混乱。有统计学家，统计分析师，数据分析师，数据科学家，数据工程师，甚至数学家。你甚至可以任意在其中任何一个上面加上“首席”或者“资深”。首席统计师可能比高级数据科学家级别高得多。所有这些混乱的原因是从事这些工作的人都做着非常相似的事情。以这样或那样的方式，他们都在实践从数据中学习的科学；他们只是以非常不同的方式来扮演这个角色。

统计学已经存在了几百年。这一学科的发展是因为政府需要了解自己的人口和经济数据。它有着悠久而丰富的历史。美国统计协会(ASA)是美国历史最悠久的专业协会之一。

另一方面，数据分析师来自计算机科学。他们学习从关系数据库和 NoSQL 数据库中提取意义。他们专注于呈现和发现支持决策的有趣数据。

数据科学家被认为是多学科的。他们是数据分析师，但他们也开发软件，从事数学工作，了解业务，并提出有趣的问题。作为 Bitly 的前首席科学家，希拉里·梅森创建了一个流行的定义。她认为数据科学家是数据分析师，他们也懂数学、软件开发、工程和黑客。他们可以迈出下一步。他们可以开始寻找见解，而不仅仅是制作报告。

数据科学团队将通常由一名数据科学家承担的职责进行了拆分。通常，要求一个人理解数据和业务并提出有趣的问题是很难的。一个好的数据科学团队需要一个对软件开发略知一二的数据分析师，而大多数数据分析师已经发现了解软件开发是必要的。许多优秀的可视化工具需要一些软件编码。Python 和 R 是探索和显示数据的两种最流行的语言。(你在第一章学到了一些关于这些语言的知识。)

在数据科学团队中，数据分析师有三个主要职责领域:准备数据、选择工具，然后展示结果。

准备数据和选择工具

准备数据和选择工具是齐头并进的。你必须选择准备数据的工具。所以，作为数据分析师，你大部分时间都在准备数据。您必须找出获取数据的最佳方式——无论是通过 web APIs、从页面抓取数据，还是从组织的不同部门收集数据——然后清理数据。清理数据通过修复不同的字段或添加缺失的数据(如扩展缩写或纠正拼写错误的单词)使其更加有用。

展示结果

数据分析师面临的主要挑战之一是与研究主管一起探索数据，找出是否有突出的东西，并创建见解和报告。有时候，大量的数据会导致缺乏洞察力。如果数据分析师让团队超负荷工作，实际上会限制每个人解读信息的方式。

为了避免这种情况，数据分析师需要与研究负责人密切合作，在他们的报告中解释权衡。通常在统计数据中，你看不到的东西对你的理解至关重要。有时候那是故意的；其他时候不是。

假设研究负责人想要查看在跑鞋网站上购物的所有男性和女性的汇总，并显示按年龄组的细分。作为数据分析师，你可能会问年龄层。你是每五年还是每十年创建一个支架？如果你每五年创建一个，你会有 18 或 19 个中间倾斜的括号，因为 18 岁以下或 90 岁以上的跑步者可能较少。

该报告也可能难以阅读。对于 20 岁到 40 岁之间的人，你可能不需要这种粒度。35 岁和 40 岁之间可能会有很大的差别。如果你打破这个年龄段，你可能会歪曲数据。这可能会让 30 岁到 40 岁的人看起来更少。这就是数据分析师在展示数据时保持透明非常重要的原因。这里有一些影响故事的决定。如图 7-1 所示，整个团队应该努力提前了解这些决策，并传达一个准确的故事。

图 7-1。

Heatmaps Note

从最细的层面(每个年龄作为一个单元)和不同年龄组的热图来看:左图显示轻量级运动鞋在 18-21 岁之间最受欢迎；运动控制、赛车、稳定性和拖车更受 21-65 岁人群的欢迎。然而，由于不同的年龄界限，显示在右边，这个数据可能携带一个非常不同的信息。在右上方，似乎轻量级运动鞋在所有三个年龄段(0-18 岁，19-65 岁，66-90 岁)都同样受欢迎，但如果你看看右下方和原始热图，它显然只在 18-21 岁之间更受欢迎。这是因为右上角的第一个桶将最受欢迎的范围分成了两半。查看如何在 http://ds.tips/m2zAm 创建这些图表。

所有这些决策通常由数据分析师决定。然而，与研究主管一起做出这些决定有助于整个团队更好地理解数据。

与项目经理保持一致

在数据科学团队工作最困难的部分之一是让您的见解具有可操作性。这项工作应该开始感觉像一个正在进行的科学实验。你得到一点数据。研究线索引发了有趣的问题。这些问题刺激更多的报告，这通常会导致更多的问题。

在这一轮探索中，团队需要专注于收集数据的目的。还需要一种向组织的其他人解释这些见解的机制。不幸的是，这意味着许多会议，这可能是一个真正的时间消耗。当作品具有创造性时尤其如此。

我曾经为一个组织工作，该组织有一个非常有创造力的数据科学团队。他们想出了利用公司大量信用卡数据的有趣的新方法。在最初的几个月里，数据科学团队大多独自探索数据。最终，团队产生了一些非常有趣的见解。随着他们的见解变得更加有趣，组织中的其他人也变得更加好奇。各部门开始号召团队成员做报告。这些会议使得其他团队更加感兴趣。这导致了更多的会议。几个月后，数据科学团队中的一些人每周开会长达 20 个小时。他们从数据科学从业者变成了演示者。

数据科学团队中这些关键人物的缺席降低了团队其他成员的工作效率，以至于他们产生的见解越来越少。他们花在查看数据上的时间要少得多。请求召开会议的部门开始询问为什么数据科学团队没有找到同样多的见解。

这在许多组织中都是一个悖论。你的工作对公司的其他人越有意思，你在会议上谈论工作的时间就越多，这意味着实际工作的时间就越少。

打破这种循环的最好方法是拥有一个高效的项目经理。项目经理非常擅长保护数据科学团队不偏离轨道。他们可以通过在会议上代表团队来做到这一点。

数据科学团队中的项目经理负责三个主要领域:使数据民主化(使其广泛可用)、共享结果以及加强组织学习。项目经理既当挡箭牌，又当推土机；保护团队免于过多会议的盾牌，这将有助于保持团队工作，以及打破障碍和访问隐藏数据的推土机。

使数据民主化

当您在大型组织中工作时，访问所有数据变得越来越困难。项目经理可以帮助打破这些孤岛，从而使整个组织受益。例如，假设您的数据科学团队想要访问位于数据中心角落的某个布满灰尘的服务器上的数据。当团队试图访问它时，他们发现它是禁区，只对某个部门开放。您的项目经理负责尝试说服该部门允许数据科学团队访问这些数据。

分享结果

项目经理还负责分发信息。他们是参加会议并展示团队成果的人。如果另一个部门的人想要访问团队的数据，项目经理会给他们提供访问权限。

数据民主化和结果分发密切相关。这是一条双行道:一条路可以访问组织数据，另一条路允许组织的其他人访问团队的见解。其中每一个都有自己的一系列会议和挑战。

加强组织学习

项目经理的最后一个领域是加强学习——获取洞察力并使其可操作。在一天结束的时候，团队仍然会根据组织学到的东西进行评估。需要有人坚持到底，将洞察力转化为产品或变革。

想象一下，如果拥有信用卡数据的组织发现了一些有趣的事情，比如午餐时间交易数据略有上升。项目经理会将这种洞察力转化为可操作的东西。他或她也可能与基础设施组合作，在这些时间扩大他们的技术，或者与营销组合作，创建午餐促销。强化这种学习需要大量的时间和会议。一个好的项目经理通过承担这个责任来保持团队在正确的轨道上。

团队合作

一旦你的团队就位，整个团队一起工作，看看他们是否能创建一个有趣的数据模型来显示数据的趋势。也许你会发现几个不同的项目之间有很强的相关性，然后一起猜测是什么导致了这种相关性。

假设您的团队为一家在线杂志工作。在每个故事的顶部，都有一个链接，允许读者将文章分享给他们的社交网络。您团队中的数据分析师对读者分享最多的故事进行排名，并为团队准备一份报告，如图 7-2 所示，以便您可以讨论调查结果。反过来，研究负责人可能会问，“是什么让这些文章如此受欢迎？它们是被最广泛阅读的还是被最广泛分享的？有没有某些话题让一篇文章更容易被分享？有没有关键短语？”

图 7-2。

Counts by channel and title along with totals Note

该数据由随机生成的文章标题和频道的分享数组成。从图表中，您可以看出，尽管它们都是份额排名靠前的故事，但渠道之间可能会有很大差异。查看如何在 http://ds.tips/spu3E 创建这些图表。

您的团队合作创建一个模型，该模型显示某些主题之间的相关性以及该主题被共享的可能性。也许团队创建了他们自己的主题标识。研究负责人在这里至关重要，因为她是最了解业务的人。她可能对读者有足够的了解来猜测某些主题类别。她可能是想出关键词的最佳资源，比如“偷窥”、“模糊的照片”、“古怪的幽默”或“谣言”，这意味着技术谣言。(有出版背景的人会有很多有用的建议。)

该团队甚至可以创建一个程序的第一个版本，试图根据关键字将文章分类。数据分析师创建报告，并开发识别故事主题的应用程序。然后，他创建了一个数据模型，可以准确地对分享最多的文章进行排序。(这个人可能不太了解出版，但他知道如何处理数据。)最后，团队使用预测分析将该模型应用于未来。您现在有了一个应用程序，它可以准确地预测一篇新文章何时可能被许多读者共享。

这是项目经理介入的地方，获得这种新的洞察力，并使之可行。她将结果传达给其他团队，并与管理层合作改进组织。她甚至可能与市场部合作，将最赚钱的广告放在更有可能被读者高度分享的文章上。

数据科学思维的一部分是承认，为了鼓励创新，你需要研究主管和数据分析师一起工作来推广新想法。研究负责人必须提出有趣的问题。他们还必须培养意见的多样性。他们可能想从组织的其他部门引进人员。

如果你只和数据科学家一起管理你的团队，你很可能缺乏意见的多样性。他们的训练和背景会有太多相似之处。他们更有可能很快达成共识，然后齐声合唱。

我曾经和一所研究生院合作，他们试图通过查看过去的数据来提高他们的毕业率。事实证明，最好的主意来自一个项目经理，他也是一个热爱潜水的人。他查看了人口统计数据，并建议伙伴系统可能会增加参加整个项目的学生人数。这是水肺训练中常见的做法。没人能预料到他的洞察力。这只是来自他的生活经历。图 7-3 显示了您可以收集的关于伙伴系统的数据示例。

图 7-3。

Buddy system data Note

看左边，如果一个学生参加了他们的伙伴计划，平均来说，这个人会比那些没有伙伴的人在计划中多呆三周。那些有朋友的人比那些没有朋友的人更有可能在八周后留下来。参见如何在 http://ds.tips/naF7u 创建此图表。

这种形式的创造性发现比大多数组织意识到的要普遍得多。事实上，一份来自专利局的报告表明，几乎一半的发现都是简单的偶然发现。团队在寻找解决问题的方法，而某人的洞察力或经验将他们引向一个全新的方向。

Note

我们将在第八章中更详细地介绍这种工作关系。

摘要

在本章中，您了解到数据科学中最有效的团队模式之一包括以下角色:研究主管、数据分析师和项目经理。研究负责人有三个方面的职责:寻找假设，提出问题，了解业务。数据分析师准备数据，选择工具，并展示结果。最后，项目经理从各个部门收集您需要的数据，然后分享团队的成果并强制组织学习。在第八章中，你会发现这个团队将如何开始合作。

Footnotes 1

杰森·h·斯特芬《航空乘客的最佳登机方法》《航空运输管理杂志》14，第 3 期(2008): 146-150。

亨利·明茨伯格。《战略规划的兴衰》《哈佛商业评论》第 72 期，第 1 号(1994 年):第 107-114 页。

八、开始工作

现在你已经有了自己的团队，你需要了解如何开始工作。首先，您需要探索每个团队成员的职责范围，并指出这些职责范围的重叠之处。接下来你需要考虑的是如何呈现你的数据。数据可视化是整本书都涉及的主题。我将简要介绍这个主题，并涵盖您的数据科学团队将主要关注的两种不同类型的报告:内部报告和外部报告。

在您知道如何展示您的报告后，我将继续解释数据仓库以及它们如何影响您的团队收集数据的能力。然后，我会给你一些关于如何使你的数据民主化的建议。最后，我将讲述深入了解数据科学团队和获得管理层认同的重要性。

界定责任范围

与大多数组织的运营方式相比，数据科学思维是一个巨大的变化。即使自称为数据驱动的组织也不经常使用他们的数据来创造新的见解。相反，他们使用数据的方式就像一个醉汉使用灯柱一样。 ¹ 他们认为这是支持而不是照明。

这对您的数据科学团队来说是一个真正的挑战。您的组织可能认为这是数据驱动的，但他们实际上只是使用数据来强化他们已经知道的东西。任何与这一知识相矛盾的东西都被视为坏数据。

您的数据科学团队需要确保使用数据进行发现，这可以防止团队陷入仅使用数据支持已知内容的陷阱。事实上，数据科学的一个主要好处是质疑已有的知识。就像那句古老的马克·吐温名言:“让我们陷入困境的不是我们不知道的事情。这是我们确切知道的，但事实并非如此。”

如果你的组织依赖于没有数据支持的知识，你可能会遇到麻烦。通常，这种共享的知识是正确的，但当它是错误的，它会产生持久的后果。如果您的数据科学团队忠实于其三个方面的职责，这将为您的组织带来实实在在的好处。这三个领域是研究、问题和实现，如以下部分所述。

到目前为止，您已经看到了数据科学团队中的三个常见角色:提出有趣问题的研究主管、与研究主管合作提出有趣报告和见解的数据分析师，以及将这些见解付诸实践并提供给组织其他成员的项目经理。

现在是时候承担这些角色，并把它们放到更大的责任范围内，这样你就可以看到团队是如何团结在一起的。想象你的团队有不同的重叠责任区域，如图 8-1 所示。

图 8-1。

The overlap between different roles

研究

让我们从数据分析师的维恩图开始。数据分析师的主要职责是研究，这是科学和数据科学的关键部分。数据分析师与研究负责人合作，提出有趣的问题，研究这些问题，并通过创造性的报告或图表来展示结果。

该数据分析师是团队的基础。他与项目经理和研究主管一起工作。他们只是以不同的方式工作。把他想象成和他们两个都有独立的双向关系。他以有趣的问题的形式从研究负责人那里获得输入，然后他将结果和见解输出给项目经理，以便她可以强制学习。

质问

现在我们来看看图 8-1 中的下一个圆。右边是研究线索的圆圈。他们的职责范围是提问。如果你用科学的方法来思考这个问题，这个人就是创造了一个有趣假设的人。

研究主管在自己和数据分析师之间创造了一个循环。她在问问题并得到反馈。这并不像给数据分析师发一封电子邮件说“你怎么看？”这是一个合作的过程。研究负责人提出问题，数据分析师根据可用数据对这些问题提供反馈。这两个圆重叠在一起。这是问题和研究之间的直接关系。

履行

图中最后一个圆圈 8-1 是给项目经理的。他的职责是执行。他需要确保团队获取数据并将其用于可行的事情。他确保团队将他们的见解分发给组织的其他成员。

采取探索性的过程并将其应用于组织知识并不是一个简单的挑战。在数据科学团队中，您通常不知道最可行的见解的途径。在团队找到一条有趣的路径之前，团队将通过 50 个死胡同。

尽管如此，重要的是要考虑这些见解最终实现时会是什么样子。

这些责任领域中的每一个都是团队需要完成的地图的一部分。这有助于强化您的数据科学团队是探索和发现的理念。团队需要遵循数据，即使它与已有的知识相矛盾。

提交报告

数据可视化是数据科学最有趣的领域之一。它是使用图形和图像显示数据的方式。简单的图形是传达复杂思想的最佳方式之一。平衡复杂的想法和简单的设计是一个真正的挑战。

大多数报道在这一方向上或另一方向上走得太远。有许多漂亮的图表并没有真正传达多少信息，也有一些信息丰富的图表很难看，很难理解。良好的可视化是数据分析师的核心职责。也就是说，分析师应该与数据科学团队密切合作。如果你必须向研究负责人解释这个图表，对其他人来说可能太复杂了。这个团队是一个很好的试验场，可以帮助你使你的图表更漂亮，可读性更好。

有许多关于数据可视化的好资源。最古老和最受尊敬的方法之一是量化信息的可视化显示，第二版由 Edward R. Tufte 出版。 ² 在这本书中，图夫特教授介绍了数据-墨水比率的概念。他指出，你应该推动你的可视化，用最少的墨水传达最多的数据。他将“图表垃圾”这个术语用于无用的视觉效果，如三维阴影或渐变效果。

塔夫特教授帮助建立和设定了数据可视化领域的方向。他帮助建立了一种展示数据的现代方法。

对于另一种方法，请查看 Cole Nussbaumer Knaflic 的《用数据讲故事:商业专业人士的数据可视化指南》。在她的书中，她列出了六个关键的教训。她首先说，数据分析师应该了解他们的受众和背景；选择合适的显示器，消除杂乱，集中注意力；像设计师一样思考，讲述一个引人入胜的故事。这两本书将让你很好地理解创建良好的数据可视化意味着什么。

Note

在数据分析师的培训中，通常没有为他们创建良好的可视化做任何准备。大多数研究生课程仍然深深植根于数学和统计学。良好的数据可视化依赖于美学和设计。这是一项需要学习的技能，可能并不容易。

请记住，您的团队一起工作来探索数据，这意味着您设计的第一轮报告的大部分将是为彼此设计的。研究领导提出有趣的问题，数据分析师创建一个快速而肮脏的报告来探索可能的答案，然后团队可能会提出一系列新问题。这意味着您的大部分初始数据可视化将是快速交换——更像是可视化聊天，而不是完整的数据报告。

另一方面，还有最终的数据可视化，您需要与组织的其余部分进行交流。这些可视化效果将会更加完美、简单、易于理解。

把你的第一轮可视化想象成数据白板，就像大多数组织墙上的白板一样。它们主要用于帮助小型会议和讨论的快速可视化。你的第一份报告应该有那样的可读性。这可能是一个快速简单的聚类图。也许这只是一个简单的线性回归。

没有人会给行政报告中的白板上的涂鸦拍照。只是为了团队。要将白板上的数据呈现到执行报告中，您必须增加清晰度和修饰。

如果你是一名数据分析师，记得利用你从团队其他成员那里得到的反馈。数据可视化就像任何设计一样。你不需要成为专家才能有自己的观点。你的团队将是判断你的图表是否可读和可理解的最佳方式。也请记住，你最好的图表将是一个紧急设计的产品。从简单的报告开始，随着时间的推移进行改进，使它们更简单，可读性更强。每个新版本都应该阐明你所拥有的信息。您还可以通过添加信息来改进您的报告，而不会增加其复杂性。

如果经过几次改进，你最终会得到更漂亮的报告。团队的其他成员将是帮助你实现目标的最佳资源。

了解孤岛并释放您的数据

数据科学团队面临的最大挑战之一是访问组织的所有数据。这是项目经理的核心职责之一。她会努力进入你组织中每个角落布满灰尘的旧数据库服务器。

对于大型组织来说，每个部门拥有不同的数据库并且不共享信息的情况并不少见。每个部门都有自己的数据分析师、经理和数据库工程师。该部门的人员将了解他们的数据挑战，但不太了解组织的其他部门。这通常被称为数据仓。筒仓这个术语是从农业中借用的。农民通常将季节性谷物储存在一个高大的中空建筑中。如果你见过筒仓，你就会知道它是一座高大的独立建筑。每个筒仓储存自己的粮食，通常与其他筒仓没有联系。组织数据也是一样。每个部门都存储少量数据，不会与其他孤岛混在一起。

数据孤岛的存在是有充分理由的。每个部门可能都有自己的法规挑战或安全措施。一个数据库可能有密码，而另一个可能只有简单的产品列表。密码数据库很可能是加密的和安全的，而产品数据库是开放的和可用的。

孤岛的问题在于，它们使您的组织很难对您的数据有一个整体的了解。我曾经为一个组织工作，该组织试图将其所有数据转换到一个集中的集群中。他们觉得他们没有从数据中获得足够的洞察力。该组织刚刚经历了一次数据治理转型，希望治理如何控制数据。

当他们最终进入他们的数据时，他们意识到有多少数据被锁在无人知晓的小仓库中。多年来，每个部门都创建了自己的流程、模式和安全程序。该组织希望从这些数据中获得价值，但是这些数据分布在整个公司的不同服务器上。让每个人分享他们的数据有点像让他们分享他们的牙刷。项目经理参加了许多讨论非常激烈的会议。

不幸的是，打破这些孤岛是成为一个更加数据驱动的组织所必需的。您可能希望几个数据科学团队在一个集中的数据集群上工作。您还会希望数据科学团队之外的人创建基本的报告和图表。

请记住，数据是发现洞察力和创造新的组织知识的关键材料。要成为数据驱动的，你需要自由访问数据。

既然您已经了解了孤岛，那么如何使数据民主化，以便尽可能多的人可以访问它呢？您需要确保数据不再是在高管和数据分析师之间传递的受保护资源。相反，它需要成为一种全公司范围的资源，被每个人操纵和理解。

如果你是数据科学团队的项目经理，请记住以下几点:

不要低估访问数据仓库的难度。这需要很长时间，并且您希望在团队实际需要他们的数据之前就开始。
创建集中式数据集群需要进行组织变革。如果你没有高管的认同，你可能不会有太大的进步。您可能需要向每个部门推销集中式数据集群的理念。大多数部门不会同意你的观点。他们认为如果它没坏，为什么要花时间去修理它呢？您可能需要向他们解释，他们将能够创建更复杂的报表或使用更新的可视化工具，以此来吸引他们。
您需要提供对团队报告的访问权限。如果你能展示公司范围内的报告和见解的价值，你可能会更容易打破孤岛。过一段时间后，就更容易认为共享数据就像任何其他共享资源一样。整体将比所有部分的总和更好。

尽最大努力保护数据科学团队免受数据孤岛会议的影响。你希望他们专注于探索和发现。你专注于增加他们的使用和访问。

在数据科学团队中创造洞察周期

许多组织关注于监控每个团队的里程碑。经理们专注于他们的合规性，并且他们的大部分努力致力于规划。他们有季度预算，并密切监督。他们寻找成本或进度差异。如果他们看到了变化，他们会迅速追踪，然后报告给主管。这些类型的组织是为监控和遵从而构建的。如果你在这种类型的组织中，想想你的会议。很有可能，你正在做一些事情，比如计划或提出一个计划，与另一个团队协调，要求增加预算，或者因为进度落后而要求延期。

这种工作方式不太适合数据科学团队。记住你的团队的工作是探索性的。它的成员提出问题，创造理论，然后进行实验。

当然也有一些公司习惯于与科学家合作，比如制药或高科技公司。这些类型的公司已经进行了多年的实验。但对大多数公司来说，探索性工作是一个新概念。拥有一个创造新知识的数据科学团队似乎不太自然。在这些公司里，你必须特别小心团队的运作方式。将存在将业务与技术分开的机构压力，以及确保由合规经理管理团队的强大推动力。这通常是项目经理或总监。建立这些结构会减缓发现的速度。

我曾经为一个组织工作，该组织不允许研究领导与数据团队密切合作。他们认为，提出最佳见解是数据分析师的工作，而业务经理只会在月度报告中看到这些想法。

业务经理有自己的预算，独立于数据团队的预算。业务经理对寻找真知灼见不感兴趣。她只是确保她的团队不超出预算。拥有一个全职的研究带头人不在他们的预算之内。数据科学团队甚至在开始之前就停止了探索。

我看到另一家公司试图使用项目经理来监控数据科学团队的里程碑。他试图创造不同的方法来衡量团队的进展。他为开发问题创建任务，然后测量团队完成这些任务的情况。效果不好，因为大多数问题只会引出更多的问题。当团队的里程碑持续下滑时，项目经理很不高兴。他的动机是尽可能快地“完成”问题，这与你在数据科学团队中想要的正好相反。

当你在一个数据科学团队时，试着意识到这些制度压力。大多数组织很难接受一个不容易衡量或控制的数据科学团队。很难设定目标或创造投资回报。

努力工作以确保你的团队不会被拉入这些顺从的结构中。相反，确保团队创造一个反馈循环。每个人都应该一起质疑、研究和学习。

数据科学团队中的每个人都有自己的关注领域，但他们仍然在紧密的反馈循环中一起工作。例如，当研究负责人和数据分析师研究数据时，项目经理会参与其中，而数据分析师可能会给项目经理一些关于访问另一个团队的数据的好建议。当每个人都参与的时候，团队总是会做得更好。当你探索的时候，你对一个问题的观察越多，你就越有可能获得深刻的见解。

此外，请确保您的数据科学团队拥有高管级别的支持。没有它，你几乎肯定会被拉回普通的控制策略。这并不容易，但如果你有管理层的支持，并能在团队内部建立紧密的反馈循环，你会更容易有所发现。如果这些组织变革需要很长时间，不要沮丧。第一步是理解数据科学的目的，以及它如何适应这些长期服务的组织结构之外。

摘要

在本章中，您探索了每个团队成员的职责范围。然后，您会看到这些责任领域的重叠之处。您还了解了一些如何呈现数据(数据可视化)以及内部和外部报表之间的区别。接下来，您了解了数据仓库以及它们如何影响您的团队收集数据的能力。然后，您收到了一些关于如何使您的数据民主化的提示。最后，您了解了向数据科学团队提供透明度的重要性，以及这如何有助于管理层的认同。在第九章中，你会发现如何让你的团队像数据科学团队一样思考。

Footnotes 1

这句话通常被认为是苏格兰小说家和民俗学家安德鲁·朗说的。

塔夫特，爱德华 r，和 P. R .格雷夫斯-莫里斯。定量信息的可视化显示。第 2 卷，第 9 号。康涅狄格州柴郡:图形出版社，1983 年。

科尔·努斯鲍默·纳弗里克。用数据讲故事:商业专家数据可视化指南。约翰·威利父子公司，2015 年。

九、像数据科学团队一样思考

现在，您已经知道如何构建您的团队，并划分了责任区域，您如何确保您的数据科学团队像团队一样思考？在这一章中，我将通过研究一些让你的团队保持正轨的常用方法来帮助你。首先，我通过问有趣的问题来讲述如何避免不加推理地报道。接下来，我将探索如何为你的团队整体找到正确的心态。最后，你将学习如何理解数据，并获得一些如何摆脱团队冻结的技巧。

不讲道理避免举报

如果你不熟悉统计学，一个很好的起点是《赤裸裸的统计学:从数据中剥离恐惧》，作者是前芝加哥大学公共政策教授查尔斯·惠兰。这是一本有趣的读物，也是对统计分析的很好的介绍。在书中，他回顾了利用报告得出草率结论的危险。

如果你知道要找什么，你会发现到处都是草率的结论。你可以在互联网新闻网站上看到这个。Wheelan 教授设想了一个新闻网站，标题引人注目:“工作时短暂休息的人更有可能死于癌症。”听起来很可怕。根据这项对 36，000 名工人的研究，那些报告每天休息几次 10 分钟的人在未来五年内患癌症的可能性增加了 41%。那些没有休息的人要健康得多，如图 9-1 所示。

图 9-1。

People who take short breaks are far more likely to develop cancer

如果我们只看那些每天休息三次或更多的人，他们患癌症的可能性确实增加了 43%。然而，95.1%的人每天只休息两次。查看如何在 http://ds.tips/Sp4ye 创建此图表

一个粗心的数据科学团队可能会将此报告给组织的其他部门，公司可能会采取古怪的措施，例如锁上门以确保每个人的安全。这似乎是一个极端的例子，但它比你想象的要普遍得多。

一个负责任的数据科学团队绝不会从这类报告中得出结论。相反，研究负责人会用它来引出有趣的问题。为什么离开办公桌会如此致命？这些休息了 10 分钟的人是谁？为什么不休息的人更安全？

研究负责人可能需要通过与熟悉这些员工的人交谈来研究这些问题。也许有人会认可这种行为。

如果你在办公室工作过，你可能会认识到，任何一个每天起床 10 分钟的人都可能是去外面抽根烟。记住相关性并不意味着因果关系。在这种情况下，问题是这些工人经常吸烟。与他们每 10 分钟起床的联系只是偶然的。吸烟才是真正的危险。

在您的数据科学团队中工作时，请记住，防止草率报告的最佳方法是与研究主管合作，提出有趣的问题。记住结论是容易的。难的是探索和推理。这些将是你最大的洞察力的来源。

你的研究主管和数据分析师之间应该有一种健康的紧张关系。数据分析师将寻找数据来得出结论。研究负责人总是会有更多的问题。数据分析师将提交报告，研究主管将测试这些报告的弱点。最终，这将有助于创建更强有力的分析。

草率的推理是一个比看起来更大的问题。前面的例子只是一个虚假的互联网标题，但有时现实可能是危险的。在 20 世纪 90 年代，医生观察到服用雌激素补充剂的女性患心脏病的可能性降低了三分之一。一项对 122，000 名女性的大规模研究表明，雌激素补充剂和心脏病发作之间存在负相关关系。许多医生得出结论，雌激素具有保护作用，可能有益于女性健康。 ²

到 2001 年，1500 万妇女正在服用雌激素补充剂，通常称为激素替代疗法。然后奇怪的事情发生了。医生开始注意到，接受激素替代疗法的女性更有可能患中风、心脏病和乳腺癌。

几年后，医生们开始仔细检查这些发现。他们中的许多人得出结论，在最初的研究中，看起来更健康的女性有外部因素——她们更富有，更有健康意识，更有可能获得出色的医疗保健。雌激素不是他们身体健康的可能原因。这个数据至今仍有争议。然而，有一点是可以接受的，那就是这种草率的分析导致了成千上万妇女的死亡。

对草率推理的最好防御是研究领导和数据分析师之间创造性的紧张关系。如果你没有问正确的问题，你更有可能得出错误的结论。

拥有正确的心态

你已经看到草率报道的危险。现在让我们稍微思考一下如何进入正确的心态。许多组织认为数据科学只是一种分析技能，一个房间里有一群分析师，他们只是简单地报告他们的数字。这些数字被视为真理，因为数字不会说谎，但数字会说谎。在第四章中，你看到了统计数据讲述错误故事的例子，两个政客基于相同的数字讲述了不同的故事。研究可能会得出错误的结论。人们可能会曲解数据。他们的故事可能不完整。

你已经看到，提出问题是对草率结论的最好防御。那么如何提出更好的问题呢？要达到这个目标，你需要有正确的心态。好消息是，在过去的几年里，在这方面已经做了很多工作。许多不同的领域走到了一起，以更好地了解人们是如何思考的。计算机工程师将这些应用于机器学习和人工智能。

研究发现，分析性思维不一定能很好地服务于数据科学。报告和数据只是第一步。下一步是概念思维——观察数据并将其与自己的直觉相结合的能力。概念思维将帮助团队确定他们的问题所关注的领域。

有一本关于这个话题的有趣的书，书名是《全新的思维:为什么右脑思考者将统治未来》，作者是丹尼尔·平克。在书中，他认为我们已经接近了信息时代的尽头，仅仅关注数字和报告是没有价值的。真正的价值来自我们创造的知识。他称之为概念时代。

数据科学正处于这个概念时代的边缘。在某种程度上，分析工具将足够简单，以便更多的人可以访问数据。很快，用户将可以像 WordPress 或微软的 LinkedIn 一样使用数据科学工具。这将使更多的人获得有趣的信息。

目前，数据科学团队负责数据及其底层概念，这在许多方面要困难得多。团队必须使用他们的分析技能作为起点，然后使用一套全新的概念技能。在丹尼尔·平克的书中，他讲述了其中的一些技巧。他称之为概念时代的“感觉”。我将这些感觉融入了三种团队价值观。这些值应该有助于您的团队在概念层面上考虑数据。

讲故事胜于报道

第一个价值是讲故事胜于报道。您的数据科学团队应该努力提供关于数据的有趣故事。你应该讲一个令人信服的故事。通常情况下，你的数据会被解读，这意味着可能有不止一个故事。如果你想到一个有趣的故事，就更容易提出问题。

把数据想象成戏剧中的角色。询问他们为什么做一件事而不是另一件事，然后询问他们的行为。

细节之上的交响乐

第二个价值是细节上的和谐。参与信息时代的最佳方式之一就是专业化。你可以在公司招聘中看到这一点——例如，数据库工程师通常只专注于少数几个平台。您将希望在数据科学团队中远离这种专业化。你希望团队通过将几个不同的故事放在一起，创造一个更大的画面，来创作一首交响乐。

你已经在几个例子中看到了这一点:看到吸烟者离开办公桌的大画面，理解为什么顾客在年初购买跑鞋。这些故事要求你引入许多不同类型的数据，以获得更好的理解。

同理心胜过确定性

最终的价值是同理心高于确定性。了解人们的动机是对你的数据提出疑问的最好方法之一。您的数据科学团队想要了解您的客户在想什么，什么对他们来说是重要的。请记住，数据科学可以分析数百万人的行为。如果你的团队能理解他们的动机是什么，他们就能提出更有趣的问题。

请务必记住，您的数据科学团队必须使用一套全新的技能才能取得成功。要问好问题，你必须从概念上思考。尝试使用这些团队价值观来提醒自己，数据科学不仅仅是简单的报告。你的团队需要运用他们的概念技能来提出好的问题并创造组织知识。

深入“意义建构”

如您所见，团队拥有正确的心态非常重要。你的团队应该从概念上思考数据。那不是一件容易的任务。请记住，大多数数据分析师来自数学或统计学，这些领域往往依赖于结构化指标。

概念思维往往需要一种讲故事的风格，更有创造性和艺术性。许多数据分析师需要依靠他们的能力，而不是他们的培训。一旦每个人都有了正确的心态，他们就可以开始专注于有意义的事情。理解是数据科学的一个关键部分。

我们都以这样或那样的方式理解事物。当您度假回来时，您可能会被收件箱中的电子邮件淹没。您可能决定创建标记为“重要”、“旧”或“通知”的子文件夹，或者您可能决定按发件人对所有电子邮件进行排序。

每个人处理数据的方式可能不同。作为一个团队，要对数据有一个共同的认识就更难了。每个人都有自己的理解技巧。这些视图可能不会重叠。对一个人来说有意义的事情对另一个人来说可能是浪费时间。

对数据科学团队来说，理解可能是一个巨大的挑战。这些团队将试图理解非常大的数据集，这些信息可能是压倒性的。这可能会导致团队冻结，即当一个团队有如此多的数据，他们不知道从哪里开始。如果你在团队之外，当团队冻结时，你可能很难看到。

我曾经为一家公司工作，该公司试图理解一个巨大的新数据集。该公司收集了适量的数据，然后从外部公司购买了大量数据集。他们希望将现有数据与这些更大的数据集联系起来，以便更好地了解他们的客户。在另一家公司的帮助下，他们能够快速地将这些新数据集放入他们的集群。问题是数据科学团队不知道从哪里开始。他们努力理解。他们愣住了，只是生成显示他们有多少数据的报告。

它们被冷冻了几个月。每当他们有一个商业会议，团队只是显示更好的数据报告。他们下载了昂贵的可视化工具，并制作了非常棒的图表。但是最后，他们没有问任何有趣的问题。

如果你在一个数据科学团队，试着寻找你可能正在努力理解的迹象。如果每个人都专注于工具，这可能是您的团队被数据淹没的迹象。当心取代数据科学的空洞演示。

摆脱数据冻结的一个方法是从数据中获得更多乐趣。你可以提出一些看起来没有价值的荒谬问题。试着提出一些问题，看看某人是喜欢狗还是喜欢猫。也许试着通过查看某人的购物记录来猜测他或她的身高。记住问题往往会引出更多的问题。仅仅是拿到数据并使用它就足够开始了。你的团队的许多发现将来自意外的发现，这意味着你越是摆弄这些数据，你就越有可能发现一些有趣的东西。

不要害怕瞎折腾(但不要对团队以外的人这么说)。在团队内部，围绕问题反复讨论，直到有东西卡住为止。实验和玩游戏之间往往只有一线之隔。你对数据了解得越多，对一些有趣的问题就越有感觉。

试着理解团队中的每个成员可能会以不同的方式处理数据。这是理解的关键部分。您应该提出这一挑战，并寻找一种共享数据的方式。认识到你的团队何时冻结也很重要。许多数据科学团队在创建报告时会受困于工具。最后，记得玩得开心。通过摆弄数据，你可能会得到一些最好的观点。

摘要

在这一章中，你学习了一些让你的团队保持正轨的常用方法。这些包括如何通过确保他们问有趣的问题来阻止他们不加推理地报道。您还发现了如何拥有正确的数据科学思维。团队需要通过概念思考和学习讲故事来理解数据。在第十章中，您将了解如何在组建数据科学团队时避免陷阱。

Footnotes 1

查尔斯·惠兰。赤裸裸的统计:从数据中剥离恐惧。WW 诺顿公司，2013 年。

Shlipak，Michael G .，Joel A. Simon，Eric Vittinghoff，林峰，Elizabeth Barrett-Connor，Robert H. Knopp，Robert I. Levy 和 Stephen B. Hulley。"雌激素和孕激素、脂蛋白(a)与绝经后冠心病复发的风险."《美国医学会杂志》第 283 期，第 14 号(2000 年):1845-1852 年。

《全新的思维:为什么右脑思考者将统治未来》。企鹅，2006。

十、在组建数据科学团队时避免陷阱

在本章中，我们将讨论影响数据科学团队的两个主要陷阱。首先，如果一个团队太快达成共识，它会扼杀发现，这是一个团队有盲点和倾向于集体思维的迹象。

最后，你如何知道你的团队在错误的问题上花了太多时间，或者问了错误的问题？这被称为徘徊，我们也为你提供一些如何避免这种情况的建议。

避开共识

在大多数组织中，人们自然会试图达成共识。不同的组织有不同的叫法。有的鼓励大家“结伴而行”。其他人用“社会化”这样的词。数据科学非常不同。共识可能是个大问题。你希望你的团队探索新的想法。如果每个人都太快达成共识，这可能意味着每个人都有一个共同的误解。

请记住，数据科学是关于探索的。你在寻找知识和洞察力。没有必要让每个人都达成一致。事实上，你希望每个人都能够舒服地讨论如何解释数据。数据科学团队应该更像是一次尴尬的家庭聚餐，而不是安静的乘车旅行。你希望团队成员互相交谈、探索，甚至互相烦扰。这种类型的交流更有可能发现新的想法。

你可以做一些事情来阻止你的团队迅速达成共识:

要意识到共识的危险。认识到在一个复杂的话题上迅速达成一致通常是集体思维的标志。
确保你的团队足够小，以至于每个人都乐意表达不同意见。你的团队应该有你的研究领导，一些数据分析师和项目经理。努力保持你的团队少于六人。较大的群体往往会排挤较安静的声音，而这些声音往往拥有你的一些最佳见解。
确保你的研究负责人从团队之外引进人员。

让我们详细阐述最后一点，因为这是远离快速达成共识的关键。假设你正在看一个关于你的跑鞋网站的有趣问题。你想看看处于浪漫关系中的人是否会说服他们的伴侣跑步。该小组正试图通过网站上的数据找出解决这个问题的方法。研究负责人可能想邀请销售人员分享轶事，或者邀请他们认识的几个和他们的女朋友、男朋友、丈夫或妻子一起跑步的人来谈论他们是如何开始和他们的伴侣一起跑步的。这些人可能会增加一些团队没有的洞察力。只要记得保持团队的小规模。所以也许每次会议只增加一两个人。

你的团队可能尝试的另一件事是通过假设他们是错的来结束每一次讨论。这可能就像问“如果我们错了呢？”你的团队应该能回答这个问题。也许他们会意识到他们在这件事上是错的，或者他们在许多其他事情上是错的。如果这是真的，那就去经历所有其他的事情。注意团队对这个问题没有答案的时候。这是团队可能成为集体思维受害者的警告信号之一。

假设团队决定探讨浪漫的跑步伙伴问题。他们决定查看这些数据的最佳方式是查看是否有共享相同地址的客户，然后比较他们的订单，看一个客户是否比另一个客户先开始订购，如图 10-1 所示。但是如果团队错了呢？数据会是什么样的？也许室友很有可能一起跑。他们可能是学生或者想合租。这些可能是无力的论点，但仍应予以考虑。最有价值的是关于错误意味着什么的讨论。

图 10-1。

Orders from customers who share an address

大多数地址只有一个订单，一个月内每个地址最多有四个订单。除去只有一个订单的客户，平均而言，一个地址的订单最大间隔天数为 16.5 天。如果我们比较订单之间的间隔天数，最有可能的情况是，人们会在 15 天内再下一个订单，在一个月的时间内下的订单越多，他们在前 7 天内下的订单就越多。查看如何在 http://ds.tips/s5Ere 创建此图表

如果团队达成共识太快，另一个尝试是找一个可能不同意的人，并且是魔鬼的拥护者。例如，对于跑鞋网站，你可能想引入一个永远不会和浪漫伴侣一起跑步的人。问她为什么会有这种感觉。也许人们利用这段时间独处更常见。这可能是因为跑步者喜欢跑步，因为它是一项孤独的运动。这些见解确实能为团队的讨论增色不少。

如果你在一家大公司工作，你可能会比你意识到的更倾向于快速达成共识。大型组织中的典型项目需要大量的协调工作。对于这些项目，你需要一个共识来完成事情。数据科学团队有不同的优先级。当你寻找新的知识和见解时，太快达成共识可能是一个真正的危险。如果您使用本节中讨论的技术，您更有可能让您的团队不断探索并接受新的想法。

让团队不要走神

正如我们所看到的，团队有过快达成共识的危险。另一方面，您如何知道您的团队在错误的问题上花费了太多时间？什么时候应该放弃一个问题，开始另一个问题？这是相反的挑战。不是大家都同意，而是继续问错误的事情。团队最终徘徊而不是探索。

从许多方面来说，这是一个比共识或集体思维更困难的挑战。你想让你的团队感受自由漫步。同时，企业需要获得有价值的见解。你不想因为关注交付而扼杀创新。然而，该团队必须兑现承诺。

我曾经为一家大型家装零售商做过一个项目。他们试图确定顾客是普通人还是专业改造者。他们试图根据客户购买的东西创建一个预测数据模型。

研究负责人问了一些非常有趣的问题。专业人士更有可能购买哪些物品？专业人士是否更有可能购物？也许他们一大早就去购物，然后还要去建筑工地报道。专业人士更有可能进行大额采购吗？

所有这些问题都非常有趣。数据科学团队引入了一些外部人员，以便获得他们的观点。他们在避免共识方面做得很好。有许多不同的问题。也有一些不同的方法来获取数据。

该团队面临的一个挑战是，零售商错误地认为如果他们有更多的数据分析师，他们会更有效率，并使团队变得更大。有一名研究负责人、一名项目经理和四名数据分析师。

研究负责人会提出有趣的问题，然后数据分析师团队会生成几份不同的报告。问题是这些报告中的每一个都有非常狭窄的定义。数据分析师有时会出现这种情况。大多数分析师来自统计学、数学或软件开发的结构化世界。他们受过训练，所以当他们看到复杂性时，他们倾向于将其分解成狭窄的度量标准。因此，他们没有被数据淹没，而是对小细节不感兴趣。

这正是这支球队的情况。如图 10-2 所示，他们每隔几周就要制作几十份报告，报告的结论都很小，也很无趣。他们发现，购买油漆的人更有可能在早上购买，购买量大的人更有可能购买电器，购买地毯的顾客更有可能在周五购买。

图 10-2。

Item counts by days of the week and times of the day Note

方块越大，一周中某一天花在该项目上的钱就越多。较深的颜色代表当天晚些时候的销售额；浅色代表当天早些时候的销售。与地毯、炊具和风扇相比，油漆和装饰品的总价值很小。油漆大多是早上买的。地毯在周五的销售额略高，炊具在周一的销售额略高。参见如何在 http://ds.tips/y2wRe 创建此图表。

这些小数据点中的每一个都很好，但是数据分析师没有试图创造一个故事。专业客户的动机和挑战是什么？

这就是透过玻璃门的钥匙孔看的问题。当一个团队有太多的数据分析师时，有时会发生这种情况。他们专注于几十个小数据点，而不是试图与更大的真相搏斗。如果这个问题得不到解决，团队可能会继续在数据中徘徊，失去询问大问题的兴趣。

研究负责人的一项重要职责是通过推动团队提出有趣的问题并提供有价值的见解来确保这种情况不会发生。研究主管代表数据科学团队的业务利益。

你希望团队可以自由探索，但同时，你又希望他们不要徘徊。如果团队没有提供洞察力，他们对业务就没有价值。这也是你想让团队保持小规模和平等代表性的原因之一——一两个数据分析师，一个研究领导，和一个项目经理。如果你的团队中有太多的数据分析师，你就有在没有洞察力的情况下收集数据的危险。

小团队可以提出大问题。此外，记住你拥有来自团队的知识和洞察力。如果你认为团队的想法不够宏大，你必须挑战他们去追求更大的故事。

摘要

在这一章中，你学习了一些如何避免数据科学团队中两个常见陷阱的技巧。一个是达成共识太快，另一个是徘徊。如果一个团队太快达成共识，它会扼杀发现，是团队有盲点的标志。如果你的团队在徘徊，他们在一个问题上花了太多时间。他们也可能会问一些错误的问题。在第四部分中，您将了解您的数据科学团队应该如何专注于交付价值，从第十一章开始，您将看到数据科学团队的行为方式之间的差异，以及它与大多数组织的运营方式有何不同。

十一、一种新的工作方式

数据科学中的“科学”是指使用科学的方法。这种科学方法是一个发现的循环。你的团队会问一些有趣的问题，然后你会研究这些问题。接下来，你将利用研究提出新的见解。你的团队需要对这项工作采取经验主义的方法。他们需要的不是计划，而是适应。他们不再依赖答案，而是寻找有趣的问题。

这与大多数组织的运作方式有很大不同。大多数组织依赖于计划、目标和具体的可交付成果。通常在这些情况下:

投资组合被分解成更小的、可操作的项目。
每个项目可能有几个团队。
中央项目管理办公室(PMO)跟踪项目的成功。
项目管理办公室确保团队能够按时完成可交付成果。

另一方面，您的数据科学团队需要适应性、探索性和创造性来帮助他们质疑、探索和做出反应..这是一个相当大的脱节。大多数组织仍然渴望计划、目标和确定性。

为了让你的数据科学团队取得成功，你必须改变组织对你的工作的看法。你必须摆脱计划和交付的观念，代之以探索和发现的观念。在大多数组织中，这种改变并不容易。

你要做的第一件事就是传达数据科学的与众不同之处。首先将数据科学与一个典型项目进行比较。展示传统的规划和交付理念如何不适用于数据科学团队。重新定义成功的标准，解释你不能在项目结束时专注于一个大爆炸的可交付成果。相反，你必须通过创造新的见解来展示成功，然后展示创造组织知识的价值。

回顾典型项目

根据项目管理协会(PMI)的数据，世界上有超过 1600 万的项目经理。相比之下，研究公司国际数据公司(IDC)估计软件开发人员只有 1800 万多一点。这意味着几乎每个软件开发人员都有一个项目经理。对于许多开发人员来说，这并不奇怪。

在软件开发领域，项目管理和软件开发似乎是齐头并进的。大多数软件开发人员都讲流利的项目管理。他们可能会问一些关于软件需求的问题，或者某个新特性是否超出了项目的范围。他们甚至可以使用甘特图或其他项目管理计划。这些开发者已经将项目管理内在化了。他们将需求、范围和进度作为软件开发的一部分来考虑。尽管开发可以以许多不同的方式发生，但是对于这些开发人员来说，遵循项目管理实践是一种自然的趋势。

这对您的数据科学团队来说可能是一个相当大的挑战。如果你的团队成员从事过传统的软件项目，他们可能会尝试应用那些项目管理原则。数据科学团队不做项目。请记住，这些团队是探索性的。这就是数据科学中的科学。

项目管理是一个明确的过程。它要求你在开始之前对交付品有一个了解。典型的项目要求预先建立规范。他们专注于在范围、时间表和预算内交付。如果没有对这些约束的认识，你就不能有效地管理这些项目。

典型的项目也交付产品或服务。在你的项目的结尾应该有一个名词。也许你正在完成一份报告，或者你的团队交付了一个软件产品。在最后，你的项目必须交付一些东西，这样你就知道它是完整的。

我们来看一个典型的项目。假设您需要为您的跑鞋网站购买一台新的服务器。你有一个项目经理在做这个项目。项目经理做的第一件事是创建项目章程，这是一个简短的一页文档，说明项目将完成什么。

如果章程获得批准，项目经理将创建一个计划。该计划记录了项目的范围、成本和时间表。在这种情况下，项目的范围是购买新的服务器。项目经理估计了成本，并指定了服务器到达的日期。当服务器到达时，项目结束。

范围、成本和进度都是平衡的约束。如果计划改变，成本很可能会上升，时间表很可能会延长。如果项目经理决定通宵运行服务器，成本会上升，进度会缩短。在这个铁三角中，范围、成本和进度都是平衡的。

那么这和数据科学团队有什么关系呢？简单的回答是什么都没有。好的项目管理是一个完全不同的学科。它有不同的目标和过程。这并不意味着项目管理将从数据科学中消失；很有可能有人会推动您的数据科学团队使用项目管理原则。

有一个老笑话说，如果你有一把闪亮的新锤子，所有东西看起来都像钉子。大多数组织和项目管理也是如此。这是他们习惯使用的工具。没有锤子和钉子，他们不会放心花钱。

我曾经为一个深度投资于项目管理的组织工作过。项目管理办公室是公司最有权力的部门之一。数据科学团队在几乎所有的会议中都在努力解决这个问题。利益相关者会询问项目的范围，而数据科学团队从来没有一个好的答案，因为他们试图创造新的知识和发现洞察力。涉众还会询问团队计划何时交付这些见解。同样，这个团队也没有真正的答案。他们不知道会发现什么。他们仍在查阅数据。他们无法确定找到最有价值见解的日期。这从来没有让涉众非常满意。

如果你在一个数据科学团队工作，你几乎肯定会遇到这样的问题。如果只是几个项目经理问这些问题，大概不会有太大的挑战。如果赞助你项目的人问这些问题，你可能真的有问题了。

在这种情况下，你能做的最好的事情就是交流项目管理和数据科学之间的区别。至少，要确保你的数据科学团队中的每个人都明白其中的区别。尝试远离项目管理语言，如范围、成本和进度。随着时间的推移，你的观众可能会接受不同的方法。

从事数据科学“项目”

项目管理在大多数组织中都非常成功。这是一把帮助降低成本和管理时间表的闪亮的锤子。组织使用项目管理来完成他们的许多工作已经足够成功了。这并不意味着项目管理适合所有这些工作。

数据科学明显不同于项目管理。你的团队可能会探索新的机会。他们可能试图让您的数据更容易被组织中的其他人访问。也许他们正在寻找更好地了解您的客户的方法，或者试图检测安全漏洞或欺诈。该团队甚至可能探索来自传感器或机器的海量数据集。这些努力不适合典型的项目管理框架。首先，你不会有一个范围。数据科学项目是探索性的。这就是数据科学中的科学。

在开始探索之前，你无法对你将要发现的东西做出详细的描述。探索的全部目的是你不知道你会发现什么。你必须能够对你的数据做出反应。如果你想探索和获得新的知识，你需要期待意想不到的事情。总的来说，数据科学寻找新的机会或试图解决当前的假设。它侧重于知识探索，并试图提供见解。

想一想你在生活中所做的更具探索性和经验性的事情。你曾经走过一条狭长的餐馆，看着菜单吗？这是一个经验过程。你正在探索每一家餐馆，并对菜单做出反应。这与你在一家著名的餐馆预订大不相同。然后你会计划去哪里，什么时候去，可能还会计划吃什么。

现在，想象一下，当你在探索的时候，有人要求你承诺你将吃什么，你将花费什么，以及你将在什么时候完成。很有可能，你无法回答。如果那个人坚持要你回答，你可能会跳到第一家餐馆，看看菜单，然后做个估计。在非常真实的意义上，你必须停止探索。你不是在学习，而是在计划。

这正是项目管理实践应用于数据科学时所发生的事情。表 11-1 比较了典型的软件项目和典型的数据科学项目。

表 11-1。

Software project and data science project comparison

| 典型软件项目 | 典型的数据科学项目 | | --- | --- | | 开发新的客户自助门户 | 更好地了解客户的需求和行为 | | 根据客户反馈创建新软件 | 创建一个模型来预测客户流失 | | 安装新的服务器群以提高可扩展性 | 寻找新的市场和机会 | | 将遗留代码转换成更新的软件 | 验证关于客户使用的假设 |

我曾经为一个组织工作，该组织坚持将良好的项目管理实践应用到他们的所有工作中。数据科学团队也不例外。团队试图通过创建知识里程碑和洞察力交付来适应这种实践。最后完全行不通。知识里程碑只是最好的猜测，并阻止团队关注任何有趣的东西。由于时间限制，他们只寻找容易证明或近乎显而易见的东西。每当我试图问更多有趣的问题时，他们都担心会错过一个里程碑。

如前所述，项目管理实践对大多数组织都是有益的。不幸的是，对于您的数据科学团队来说，这些实践具有寒蝉效应。项目管理不鼓励不确定性。它迫使数据科学团队只尝试和验证已知的东西。如果他们发现任何意想不到的东西，它被视为一个错误，而不是一个功能。

当您创建里程碑和可交付成果时，您是在告诉团队，他们有一个固定的时间来验证已知的内容。他们通过没有发现新事物来衡量他们的成功。这与您希望您的数据科学团队做的事情背道而驰。你不希望将数据科学视为一个交付产品的项目。

比较项目挑战

传统的项目依赖于设定的需求和仔细的计划。请记住，典型的项目有范围、成本和进度。这与数据科学团队使用的科学方法并不兼容。没有具体的可交付成果需要管理，并且您无法真正平衡这些约束。

相反，数据科学团队是经验性和探索性的。这些项目包括边看边学。如果你坚持一个项目计划，你就是在强迫团队寻找他们已经知道的东西。很难想象大多数团队会在一个定义明确的盒子里发现大量新数据。

如果你想想大多数组织中的会议，它们通常围绕着计划和达成目标。大多数组织的语言仍然依赖于诸如使命、目标和结果等短语。很难退一步想象一个纯探索的团队。对于大多数组织来说，这将是一个艰难的转变。

所以我们来看一个项目，把它比作一个数据科学团队。然后让我们看看如果你应用计划和目标会发生什么。

让我们从一个典型的软件项目开始。您的组织想要开发一个新的客户自助门户。项目章程旨在创建门户，作为降低成本的一种方式。该项目将有一个固定的成本，但该组织将节省客户服务的资金。这个项目有很高的投资回报率。该计划列出了需求文档中的所有功能。有一个开发进度的估计，所有的成本都有记录。所有这些都在项目计划中进行了概述。项目经理将在整个项目中更新计划，并帮助平衡任何变化。

现在让我们想象一下数据科学团队。是一个四人小团队。有一名研究主管、两名数据分析师和一名项目经理。他们的任务是更好地了解客户的需求和行为。组织的领导者认为，如果他们能够更好地了解他们的客户，他们可以将这种了解转化为未来的收入。

研究负责人首先会问几个问题:

我们对客户了解多少？
我们对顾客有什么假设？
为什么我们的客户会选择我们而不是我们的竞争对手？
什么会让我们的顾客更愿意和我们一起购物？

研究负责人将与数据分析师合作，将这些信息分解成报告。也许他们可以创建关于客户收入的报告，如图 11-1 所示。他们还可以分析社交媒体平台，并从成千上万的客户那里创建一个反馈词云，如图 11-2 所示。例如，单词云中一些最大的单词是“旅行”、“食谱”和“餐馆”团队可以回去问更多的问题。为什么我们的客户喜欢旅行？他们要去哪里？

图 11-1。

Income and spend Note

x 轴是收入，y 轴是支出。收入高的人不一定消费多。那些收入在 20，000-30，000 美元左右的人似乎花钱最多。参见如何在 http://ds.tips/n6cEc 创建此图表。

图 11-2。

Word cloud Note

参见如何在 http://ds.tips/k8wRa 创建此图表。

你可以看到更多地了解你的顾客会带来更高的销售额。也许你可以和营销团队合作，在旅游杂志上做广告。也许你可以开始销售与旅行密切相关的产品。

另一方面，你也可能发现整个探索是一个死胡同。也许你的数据分析师创建了一份客户旅行地点的报告，如图 11-3 所示。事实证明，你的许多客户确实在国际间旅行，但不足以证明销售新产品是合理的。所以团队决定放弃它，探索其他领域。也许接下来你会尝试探索顾客最喜欢的餐厅。

图 11-3。

Where customers travel Note

旅行的顾客总花费比不旅行的顾客多。然而，如果你比较旅行目的地，每个目的地的总花费少于那些不旅行的人。参见如何在 http://ds.tips/y8seS 创建此图表。

这如何适应传统的项目管理框架？你的项目范围是什么？而是了解你的顾客。它是关于新知识的。你怎么知道你已经了解了什么？这个新知识什么时候交付？项目范围内有什么？

所有这些问题可能会让任何项目经理茫然不知所措。学习是动词而不是名词。如果你不知道你在寻找什么，就没有办法衡量你将学到什么。如果你知道你在寻找什么，你并没有真正学到新的东西。日程安排呢？即使他们已经走到了死胡同，他们还会继续这个项目吗？团队什么时候停止工作？最后，费用呢？如果你不知道工作团队工作多长时间，你如何预算他们的时间？

您可能已经注意到，这个数据科学项目不适合项目管理框架。您将会看到，对于您的数据科学探索来说，即使不是全部，也是如此。

定义成功标准

在 1921 年的一次采访中，托马斯·爱迪生说他的助手对他们失败的实验感到沮丧。这位著名的发明家很高兴，并向他保证他们没有失败。他们总是在学习新的东西。一旦他们学到了什么，他们就会尝试不同的方法。今天，我们知道托马斯·爱迪生是正确的，因为他取得了许多成功。其中一些至今仍在使用。也有一些实验被历史遗忘了——在他们的混凝土钢琴上演奏的不多。我们可以将他的遗产视为一系列成功的实验。我们看不到占用他大部分时间的失败实验。失败比成功多得多。

如果爱迪生使用现代项目管理，他会遇到一些挑战。他如何定义自己的成功标准？你不能只寻找有用的东西。如果你做了，你需要很大的耐心。他的实验会持续几个月或几年，直到产生任何看似成功的东西。

我们应该像爱迪生看待他的实验一样看待数据科学的成功。只要问一个简单的问题:我们学到了什么新东西吗？你的团队会对数据进行很多实验，大部分实验都会失败或者是死胡同。试着不要认为这些是失败。不是每一个实验都会带来真知灼见。这也可能是真的，你的大部分见解没有太大价值。也许你会发现你的顾客大多是养宠物的。那可能很有趣，但可能没有多大价值。

这种方法在许多组织中可能具有挑战性。在一些组织中，这甚至可能是令人讨厌的。当人们问:“那个团队在做什么？”时，你就知道你遇到了这个问题或者更糟，“那个团队是做什么的？”这可能是一个组织挑战。经理们可能会雇佣一个数据科学团队作为实验，看看他们能想出什么。这可能会让您的数据科学团队的工作变得更加困难。

你可以做一些事情来展示一些成功的标准:

确保你的团队尽可能透明。抑制住远离组织其他成员的冲动。通常，如果人们不理解你在做什么，他们很快就会问你为什么在那里。
确保你在尝试解决大问题。你想让你的团队有足够的雄心去解决有趣的问题。如果问题太胆小，可能很难展示有趣的结果。
尝试通过定期安排的讲故事会议展示团队正在学习的内容。在这些会议中，涵盖团队正在研究的问题，并提供一些最近的见解。

我曾经为一所大学工作，该大学雇佣了一组“非结构化数据专家”。教务长希望有一个寻找新见解的数据科学团队。该团队在雇用他们的管理人员附近的办公室工作。大学里没有其他人知道他们在做什么。大多数人甚至没有意识到他们在那里。问题是这个数据科学团队很难提出任何有趣的问题。大学里的其他人都不会花时间去见研究负责人。

如果这个团队被安排在离其他教员而不是行政人员很近的地方，事情会变得更加顺利。这将使他们能够从一开始就与每个人合作，提出有趣的问题。他们可以通过讲故事的会议来深入了解这些问题。

如果你是一个数据科学团队的研究负责人，努力让问题与组织的其他部分紧密相连。对你的发现保持透明。经常展示有趣的见解。尝试利用组织的其他成员，让他们了解数据科学的价值。

如果你是一个数据科学团队的项目经理，努力确保团队和其他人坐在一起。你的一些最好的灵感可能来自人们的来访和提问。团队与组织的其他部分联系越紧密，就越容易提出有趣的问题。

摘要

在本章中，您回顾了一个组织中的典型项目。接下来，您了解了从事数据科学项目的感受。然后，您了解了每种类型的项目所面临的不同挑战。最后，您了解了如何定义数据科学团队的成功标准，以及您需要向组织的其他成员传达什么。在第十二章中，您将了解如何使用数据科学生命周期。

Footnotes 1

项目管理学院。PMI 项目管理手册；第二版。项目管理研究所，2001 年。

《2014 年全球软件开发人员和 ICT 技术工人评估》，2013 年 12 月，2016 年 8 月 5 日， http://www.idc.com/research/viewtoc.jsp?containerId=244709 。

"为什么这么多男人永远一事无成？"由 B. C .福布斯，[采访托马斯爱迪生]，美国杂志，第 91 卷，1921 年 1 月。俄亥俄州春田市克罗威尔出版公司。(谷歌图书全览第 10 页开始，引用第 89 页第 2 栏) http://books.google.com/books?id=CspZAAAAYAAJ&q=%22I+cheerily%22#v=snippet&

十二、使用数据科学生命周期

数据科学团队中的大多数人都熟悉典型的项目生命周期。具有软件开发背景的人熟悉软件开发生命周期(SDLC)。来自数据挖掘的人可能使用了跨行业的数据挖掘标准过程(CRISP-DM)。

根据项目的不同，每个生命周期都运行良好。这些生命周期的问题在于，它们要求你在开始之前对你正在做的事情有很多了解。在软件开发中，你必须有一个清晰的范围。使用数据挖掘，您必须了解大量数据和业务需求。

数据科学是经验性的。你不知道你会发现什么。你可能甚至不知道你在找什么。相反，你必须关注有趣的问题，然后创建一个反馈循环，以确保这些问题与商业价值相关联。

然而，生命周期是非常有用的。它就像一个高层次的地图，帮助团队保持在正确的轨道上。这就是为什么对于数据科学团队来说，您需要尝试不同的方法。您可以使用数据科学生命周期(DSLC)来为团队设定一些方向。

在本章中，您将探索 SDLC 和 CRISP-DM，以便了解它们与 DSLC 的不同之处。然后你将学习如何使用 DSLC，以及如何有效地循环 DSLC 问题。

探索 SDLC 或 CRISP-DM

您已经看到让数据科学团队在项目管理框架内工作是多么困难，所以让我们看看项目管理中常用的两个生命周期。生命周期是你在开发软件或解决问题时采取的一系列步骤。

在大型组织中，您可能会遇到两个生命周期。

第一个是软件开发生命周期(SDLC)。这个生命周期有六个阶段，如图 12-1 所示。每个阶段下面都有一个在该阶段发生的事情的例子。

图 12-1。

The Software Development Life Cycle (SDLC)

这通常被称为瀑布模型，因为这些阶段中的每一个都必须在下一个阶段开始之前完成:

计划和分析:计划软件和分析需求。
设计和编码:创建基本设计并开始编码。
测试:代码完成后，质量保证人员测试软件。
部署:通过所有测试后，部署给人们使用。

你可能看到的第二个生命周期是数据挖掘的跨行业标准过程(CRISP-DM)，它用于数据而不是软件。它被建模为比严格的瀑布模型更灵活一点。它也有六个阶段，如图 12-2 所示:

图 12-2。

Cross Industry Standard Process for Data Mining (CRISP-DM)

商业理解
数据理解
数据准备
建模
估价
部署

这两个生命周期的共同点是它们都是为“大爆炸”交付而设计的。您花费大量时间在软件的计划和分析阶段或数据的业务理解阶段。目标是在开始工作之前尽可能多地收集信息。然后你最终用一个大爆炸来传递它。

由于数据科学的实验性和探索性，当您从事数据科学工作时，这不一定是最佳方法。想象一个典型的数据科学项目。假设您的数据科学团队正在识别典型的客户行为，然后他们决定离开您去找竞争对手。有时这被称为客户流失率。您的数据科学团队可能能够清楚地陈述他们的意图:了解客户在离开之前做了什么，并创建一个模型来预测某人可能何时离开。

然而，你的团队将无法计划他们的工作。他们可能会通过查看社交网络数据、公司的销售数据，甚至是竞争对手异常成功的促销活动，找到自己的最佳模式。关键是他们开始找之前不会知道。

如果您的团队被迫使用 SDLC 或 CRISP-DM 流程，他们将花费太多时间进行规划。他们将无法应用从数据中学到的东西。这是因为他们被迫在开始建模或编码之前就计划好他们的工作。像 SDLC 或 CRISP-DM 这样的已定义流程要求理解每一项工作。如果您犯了一个错误，您必须在 SDLC 中处理一个变更请求，并在 CRISP-DM 中重新评估。

如果您希望您的数据科学团队具有灵活性和探索性，您不能应用标准的生命周期。相反，你应该寻找一种更轻量级的方法来传递见解，这样你就可以在拥有结构的同时，仍然有足够的灵活性来适应新的想法。

使用 DSLC

数据科学不太适合现有的流程生命周期。像软件一样贴合 SDLC 是不够的，CRISP-DM 的数据挖掘过程也有点太死板。这并不意味着数据科学团队应该以任何感觉正确的方式工作。在这些生命周期中有真正的价值。一个价值是它给你一个你要去的地方的高层次地图。当你开始一个数据科学团队时，这真的很有用。你对前进的道路有了一个大致的概念，所以你可以从目标开始。

生命周期的危险在于它成为工作的主要焦点。您希望将生命周期作为更好的数据科学的载体。你不要为了走流程而走流程。一个好的生命周期应该像一个扶手。当你上下楼梯的时候，你想把它放在那里。你不想每一步都紧紧抓住它。过一会儿，你甚至不会注意到它在那里。

对于数据科学项目，您可以使用 DSLC。这个过程框架是轻量级的，不太严格。DSLC 有六个步骤，如图 12-3 所示，并在以下章节中详细讨论。

图 12-3。

Data science life cycle (DSLC)

这种生命周期松散地建立在科学方法的基础上。

识别

作为一个数据科学团队，首先要确定您故事中的关键角色。最后，你希望能够用你的数据讲述一个有趣的故事。开始一个故事的最好方法是确定关键人物。就当是戏里的一个场景吧。谁走进房间？有没有主角或者主角？有没有一个背景故事有助于理解他或她的行为？

让我们回到跑鞋网站。谁是你的关键人物？跑者在那里。也许跑步者有一个影响他或她的跑步习惯的伙伴。也许你的跑步者的搭档是医生、博客写手或教练。这些参与者中的每一个都可能是您的数据科学故事的一部分。

问题

确定了关键人物后，你可以问一些有趣的问题。你团队的研究负责人可能会问:“有没有一个博客作者影响了你的跑步者？”也许教练在影响你的跑步者购买什么方面起了很大的作用。他们可能会问，“CrossFit 教练在推荐我们的产品吗？”这些问题是探索数据的关键的第一步。请记住，数据科学是实验性和探索性的。当你以一个好问题开始时，你更有可能得到有趣的研究。

研究

数据分析师希望与团队紧密合作，尝试并获得一些研究问题的策略。团队决定探究跑步者和他们的伙伴之间的关系。在这里，研究负责人会问数据分析师他们如何获得这些信息。

如何通过网站上的数据来确定某人是否是跑步伙伴？也许你可以把寻找朋友的促销活动发送到同一个邮政编码。数据分析师可以尝试将客户数据与社交网站上的朋友进行交叉引用。如果数据分析师不能研究这个问题，团队可以提出未来的策略。也许网站应该为跑步伙伴创建一个特别的促销活动。

结果

有了研究主题后，您需要创建第一份报告。这些结果是给团队的。它们应该又快又脏。希望你的数据科学团队会经历很多问题和很多报告。其中大部分都是无用的。它们可能很有趣，但还不够有趣，不足以深入探索。您不希望您的数据分析师花费太多时间来完善结果。

见识

最后，你的数据科学团队应该看看结果，看看是否有什么有趣的见解，如图 12-4 所示。也许数据表明，你的大多数客户都是与合作伙伴一起运营的。这种洞察力可能对营销团队非常有价值。

图 12-4。

Who people run with Note

这张图表是从季度调查中得出的，在调查中，客户选择了他们的跑步伙伴。每组中的第一个条形是与他们一起跑步最多的人的记录。下面是调查受访者的其他类型的人的记录。例如，经常独自跑步的人也会和他们的邻居一起跑步，而和孩子一起跑步的人会更喜欢独自跑步。参见如何在 http://ds.tips/cH6th 创建此图表。

学习

最后，你的团队会将这些见解捆绑在一起，试图创造组织知识。在这里，您的团队将讲述客户的故事。你可能想用数据可视化来支持你的故事。这种新知识真正为组织的其他部分增加了价值。如果你讲述了一个令人信服的故事，它可能会改变你的组织对他们业务的看法。

循环提问

软件和数据挖掘生命周期没有足够的灵活性来处理新信息。这就是为什么你要用 DSLC，它要轻得多。如果您的数据科学团队发现了新的东西，他们不应该为了让您的组织受益而与流程斗争。

如前所述，DSLC 有六个领域:识别、提问、研究、结果、见解和学习。总结一下，首先，你确定玩家，然后你创造一些有趣的问题。然后，您的数据科学团队应该就如何研究这些问题达成一致。你们会讨论结果，看看有没有什么真知灼见。然后你收集你的见解，创造一个故事，告诉组织的其他人你学到了什么。

这六个领域不像软件开发生命周期，每一步都通向下一步。而是把中间的三个区域想象成一个循环。您的数据科学团队应该循环处理问题、研究和结果(参见图 12-5 )。

图 12-5。

Cycle through question, research, and results

这个问题、研究和结果的循环是驱动您的数据科学团队的引擎。您团队中的三个角色都专注于其中一个领域。研究负责人专注于提出正确的问题。数据分析师与研究主管合作，提出正确的研究问题并创建报告。然后，项目经理将这些结果传达给组织的其他成员。

让我们回到跑鞋网站的例子。每隔几年，就会有一款跑鞋大获成功。你的制造商生产了数百双鞋，但往往有一双比其他的好得多。你找到数据科学团队，要求他们为这些顶级鞋子创建一个预测模型，如图 12-6 所示。这位研究负责人提出了一个有趣的问题:“一只鞋为什么会引起轰动？”她与数据分析师合作，提出一些有趣的问题:

图 12-6。

Regression coefficient by variables

是鞋子的颜色吗？
是什么新技术吗？
这款鞋是否出现在杂志上，并受益于网络效应？

Note

使用销售价值作为 y 变量，颜色、营销渠道和技术作为 x 虚拟变量，我们可以看到最畅销的产品最有可能是黑色而不是白色，橙色也有帮助。你可以解读这些数据说:如果其他一切保持不变，如果产品在数字新闻平台上做广告，它可能会帮助其销售额增加 200 美元，而在博客上做广告会减少近 200 美元的销售额。参见如何在 http://ds.tips/wrA3e 创建此图表。

研究负责人、数据分析师和项目经理循环处理这些问题、研究和结果。大部分问题和结果可能都是哑弹。其中的几个可能会引出真知灼见。也许结果表明，它是一些关键属性的组合，可以用作洞察力。然后团队把这个捆绑起来，讲一个故事，这是新的知识。这个故事是说，预测热门的最佳方式是媒体宣传、新技术和有趣设计的结合。

现在，跑鞋公司可以利用这些知识来创造新产品。该公司可以提供制造轰动一时的产品的规格和环境，而不是制造数百双等待轰动一时的鞋子。

一些拥有强大数据科学团队的组织已经在使用这种方法。网飞订阅服务公司用这种方法创建了他们的热门系列《纸牌屋》。他们当时有 3300 万用户。他们的数据科学团队研究了客户在看什么，节目的收视率，观众喜欢什么情节，以及受欢迎的演员(凯文·史派西非常受欢迎)。网飞认为政治节目很受欢迎，于是雇佣了斯派西。然后，他们根据该节目流行的英国版本制作了这个新节目。他们根据流行节目的内容创建了一个预测模型。他们通过问题、研究和结果循环工作。然后，数据科学团队创造了一个客户希望看到的故事。那个故事变成了一个情节，后来变成了一个热门的电视节目。 ¹

这个问题、研究和结果的循环驱动着你的洞察力和知识。您的数据科学团队将这些区域作为更大的 DSLC 的一部分进行循环。记住不要把这个生命周期想成瀑布式的过程。相反，把它想象成开始的几个步骤，然后中间的一个循环，产生伟大的故事。

摘要

在本章中，您已经了解了 SDLC 和 CRISP-DM，因此您可以理解它们与 DSLC 有何不同。您了解到 SDLC 和 CRISP-DM 都有六个阶段，并且您已经研究了这些阶段。您发现了如何使用 DSLC 有效地循环有价值的见解。在第十三章，你将学习如何在短跑中工作。有了 sprints，你将能够经常向你的利益相关者展示一些有价值的东西，并积累组织知识。

Footnotes 1

大卫·卡尔，“给观众他们想要的”，《纽约时报》，2014 年 10 月 15 日， http://www.nytimes.com/2013/02/25/business/media/for-house-of-cards-using-big-data-to-guarantee-its-popularity.html?_r=0 。

十三、在短跑中工作

保持适应性的一个关键方法是将你的工作分解成小块，这样你就可以经常向你的利益相关者展示一些有趣的东西。您的团队可以创建问题并获得快速反馈，以查看数据故事是否有价值并与组织的其他成员产生共鸣。如果它没有价值，团队可以迅速转向其他问题。如果是这样的话，团队可以进行更深入的研究，甚至可以根据业务部门的反馈提出问题。这个反馈循环对于确保团队的工作与商业价值相联系是必不可少的。

在这一章中，你会发现如何通过 DSLC 短跑，创建一个问题板，关注一些会议，分解工作，并讲述一个有趣的故事。所有这些技能将帮助你更有效地通过 DSLC。

迭代通过 DSLC 短跑

重要的是要记住，整个 DSLC 应该快速递增。DSLC 并不是为运行数周或数月而设计的——它小到足以容纳两周的工作。每两周，团队可以改进他们的工作，创造新的见解，并提出改进的问题。如果企业认为工作没有价值，团队可以改变路线，尝试新的东西。

现在你已经看到了 DSLC，你可能想知道这在实践中是什么样子的。需要记住的最重要的一点是，DSLC 的结构不像 SDLC 那样分阶段运行，在 SDLC 中，通常只有在前一个阶段结束后才开始下一个阶段。

DSLC 是关于确保你专注于六个领域:识别、提问、研究、结果、见解和学习。整个生命周期应该在一个短的“冲刺”中运行你可能听说过术语 sprint，它在敏捷软件中被广泛使用，但它实际上来自于产品开发。冲刺是团队贯穿整个生命周期的持续时间。每次冲刺都应该贯穿 DSLC 的全部六个区域。

数据科学团队应该进行两周的冲刺。这足以让你找到真知灼见，但也足以让你适应新的想法，如图 13-1 所示。

图 13-1。

Two-week sprints

冲刺跑的主要优势是它缩短了“概念到现金”的时间许多组织花很长时间提出新想法，然后经历一个漫长的交付过程。这些新概念可能在几个月内不会增加价值，当然也不会给企业增加任何新的现金，直到他们提出最初的概念。两周的冲刺更频繁地增加价值。即使没有真知灼见，还是会有做完的题。

您不希望您的数据科学团队长时间工作。如果你在几个月或几个季度内工作，问题和结果之间会有太多的时间。等你有了什么见解，数据可能已经改变了。

你也不希望你的团队在任何一个问题上花费太多时间。请记住，你的大部分研究都会走进死胡同。你的大多数问题都是无用的。在找到珍珠之前，你必须打开许多牡蛎。这就是为什么你想快速解决这些问题，这样当你发现一些有趣的东西时，你就可以继续做下去。

我曾经和一个州的教育部门一起工作，他们试图更好地了解在公立学校上学的学生。他们有一个庞大的数据科学团队。该团队试图创建一个模型来更好地预测学生的兴趣。不幸的是，他们试图使用 SDLC。该团队试图以冲刺的方式工作，但更喜欢以典型的瀑布方式工作。

数据科学团队花了大部分时间进行规划。当他们开始他们的项目时，他们花了几个星期在头脑风暴会议上。如果你曾经参加过头脑风暴会议，你知道它需要很好的组织。如果不是这样，会议将远远超过预定时间。事情就是这样。

事实上，几个月过去了，团队才能够发布他们的第一个需求文档。该文件列出了几个他们希望得到答案的问题，并概述了研究技术。然后，团队提出了他们希望从研究中获得的见解。

这种方法有许多挑战。请记住，数据科学是探索性和实验性的。他们只布置了几个实验，然后记录下他们希望学到的东西。他们开始证明他们已经假设为真的东西，因为证明是一项要求，这意味着如果他们被证明是错误的，这个项目就失败了。

如果数据科学团队决定用冲刺跑来代替，效果会好得多。这将允许他们提出更多的问题，进行更多的实验。他们本可以完全专注于学习新的东西，而不是希望自己是对的。它也会更有效率。在这个项目上工作了三个月之后，团队唯一需要展示的就是一系列问题和一些假设。在这三个月内，他们可能经历了十几次较小的短跑，对数据了解得更多，因为他们可能经历了更多的问题和实验。

如果你在一个数据科学团队，试着记住不要被数据淹没。不要在几个月内制定大计划。相反，尽量让事情变得小而简单。一点一点地积累你的知识，这样你就可以适应新的想法，而不是专注于任何一条道路。

创建问题板

当您在数据科学团队工作时，您的研究主管负责提出有趣的问题。提出好的问题不是一件容易的事情。一个好的问题可以激起很多新的信息，迫使人们重新思考他们的工作。这就是为什么大多数组织倾向于回避好问题。当你有一个好问题时，它会引起一些恼怒。你几乎渴望找到最佳答案。这可能会导致更多的工作，有时甚至更多的问题。

即使在今天，大多数组织仍然试图专注于提高他们的知识。他们认为如果他们能够优化，他们将永远领先于新的竞争对手。一个好问题往往能打乱这些井然有序的计划。好的问题有打破可预测性的趋势，可以将一组有序的目标变成一个开放式的问题。

打破这个井然有序的过程并注入一些探索和实验是研究领导者的责任。研究主管可以使用的最好工具之一是问题板。问题板通常是一块写满便签的大白板，通常放在数据科学团队附近。应该有足够的空间放置新的问题，并在其中一个角落放上一叠便笺。您可能需要创建一个指向便利贴堆栈的大箭头。有些团队会加上标题:“问一个问题。”

问题板用于征集问题。研究负责人提出问题，这并不意味着所有问题都是她想出来的。它应该是她自己的想法、数据科学团队的问题以及来自组织其他部门的开放式问题的组合。

问题板应该是开放的，有吸引力的。试着让它看起来尽可能的诱人。你希望任何人都可以走过，拿起一张便条纸，然后快速提问。努力保持轻松愉快。有些团队甚至把它搞得几乎像一场游戏。他们把一大碗糖果放在问题板旁边，或者他们打印出一个牌子，上面写着:“问一个问题，赢得一份奖品。”

Note

参见第十六章，了解如何组织你的问题板，以及如何针对不同类型的问题使用不同颜色的便笺。

问题板还有助于组织中的每个人了解数据科学团队的目的。当您的数据科学团队进行讲故事演示时，人们通常会认识到自己的问题，并在未来更有可能提出问题。他们甚至可能鼓励他们的同事也问问题。

你永远不会有太多的问题。研究负责人与团队的其他成员合作，对最有趣的想法进行优先排序。如果你让你的组织使用该板，它开始看起来有点像一个三维搜索空间。你可以从人们的提问中看出规律。电路板本身成为另一个数据源。

我曾经为一个组织工作，该组织在数据科学团队旁边的角落里放了一个问题板。一开始只是好奇。人们只是路过并阅读它，就像人们被吸引到公告栏一样。这个团队很聪明，把它放在一个饮水机旁边。过了一会儿，几个新问题突然出现在黑板上。他们大多是愚蠢的，没有多少价值。尽管如此，研究负责人还是使用问题板来交流数据科学团队正在做的事情。该团队发布了他们的问题，并继续进行演示。

整个夏天，这个组织带来了一批全新的实习生。第一个月，学生们试图搞清楚这个行业。作为学生，他们更愿意问问题。董事会开始充满了他们的便利贴。他们问的一些问题非常直观。他们正从一个全新的角度看待这个行业。这些问题非常简单且结构合理，因此数据科学团队开始将它们作为最高优先级。他们帮助团队以有趣的新方式探索业务。

如果你是研究负责人，一定要利用问题板。这是一个简单的方法，可以获得有趣的新问题，同时与公司的其他人交流你的进展。

只关注几个会议

您的数据科学团队通常希望在两周的冲刺阶段工作。团队将有很多事情要做，所以他们需要一些结构来保持高效。记住，在每次冲刺中，你将穿越 DSLC 的每一个区域。要以这样的速度工作，团队需要固定的工作时间，并且不能参加很多开放式会议。他们必须解释他们所有的时间。

每次会议都需要一个固定的时间框架。时间盒就像它听起来的那样:团队在会议前商定的一组时间。假设您的团队有一个一小时的会议。无论他们在那个时间盒结束时做出什么决定，都必须持续到冲刺阶段结束。你永远不能重新安排或跟进有时间限制的会议。它们开始然后结束。

在大多数组织中，会议不一定是坏事。这是提出问题和强化文化的好方法。会议的挑战在于，它们给你的一周增加了许多不可预测性。您的数据科学团队需要一个可预测的时间表，以便他们能够投入一定的探索和发现。您希望您的数据科学团队以可持续的速度工作。

在每个冲刺阶段，数据科学团队应召开以下五次会议:

研究规划
问题细分
可视化设计
讲故事环节
团队改进

如图 13-2 所示，这五种含义共同帮助传递 DSLC 的所有区域。每一次会议都有时间限制。

图 13-2。

Five meetings for the DSLC

研究规划

团队应该从他们的研究计划会议开始每个 sprint。一些团队选择在周三开始冲刺，这使他们能够在周二下午进行一次讲故事的会议。让人们在星期二参加这些会议比在星期五容易得多。研究计划会议是团队决定他们在下一次冲刺中最感兴趣探索哪些问题的时候。通常时间限制为两个小时。在会议中，研究负责人和数据分析师一起工作，提出一周的研究日程。

通常，分析师将不得不争论大量的数据，甚至试图得到一个有趣的报告。研究负责人和数据分析师将合作创建一份最基本的可行报告。也许他们不需要擦洗所有的数据来开始实验和探索。数据分析师和研究主管之间应该有一种天然的紧张关系。研究负责人想要创建小而快速的报告。数据分析师想要清理大型数据集，解决更大的问题。这个会议旨在帮助团队成员提出一个折中的策略。准备数据和创建有趣的报告，您需要做的最少工作是什么？

问题细分

在每个冲刺阶段，团队至少要召开两次一小时的问题分解会议。在这些会议中，整个数据科学团队将尝试提出有趣的问题，并将其放在问题板上。他们还会从问题板上拿走任何新的便利贴，看看它们是否有趣。

他们还会寻找问题主题:

有什么常见问题吗？
有没有大问题可以被分解成更小、更容易处理的问题？
有人回答了团队的任何问题吗？

团队将一起努力，为下一个 sprint 优先考虑一些更有趣的问题。

可视化设计

第三次会议是可视化设计会议。这个会议通常被限制在一个小时内。这时，研究负责人和数据分析师一起创建一个有趣的可视化。这通常只是数据分析师在讲故事时将使用的内容的草稿。

讲故事环节

第四次会议是一个小时的讲故事环节。这时，数据科学团队会讲述他们在冲刺阶段学到的东西。在这次会议中，他们展示了一些更好的数据可视化，在问题板上谈论问题，然后讲述关于这些问题的故事或提出自己的问题。

改进

最后，在每个冲刺阶段结束时，团队应该有一个两小时的改进会议来评估他们的进展，并讨论他们是否合作得很好，以及他们是否应该做出任何改变。

所有这些会议应该协同工作，以便数据科学团队可以在每次冲刺后提供有趣的见解。记住，在每个冲刺阶段都有很多事情要做，所以把这些会议的时间限制在一定范围内，这样你就可以专注于发现。

分解你的工作

到目前为止，您已经了解了 SDLC 和 DSLC 之间的区别，并且知道 DSLC 最好在两周冲刺阶段交付，因此您可以分解工作并提供有价值的见解。当你在一个数据科学团队中时，总有大量的数据集需要清理和探索新的数据源。事实上，你要做的大部分事情是准备数据。当你在冲刺阶段工作时，你是在强迫团队做最少的准备。

做最少量的数据准备听起来可能是件坏事。大多数人想做更高质量的工作。实际上，当您做最少量的准备时，您会迫使您的数据科学团队关注洞察力，而不仅仅是能力。您不希望您的团队花费数周甚至数月的时间来设置数据。相反，您希望团队几乎立即开始探索数据。

你还必须从组织的角度来看待它。大多数组织对数据并不感兴趣。他们对从报告中获得的知识感兴趣。从组织的角度来看，管理这些数据是成本的一部分，而不是收益。这意味着尽快从数据中提取价值的压力会越来越大。数据科学团队很难花太多时间准备数据，只在最后提交报告。

在许多方面，这类似于现在许多组织对软件的看法。一开始，大多数组织认为软件开发有点神秘。他们把大部分细节留给了技术高超的软件工程师。这些工程师会花大部分时间计划和准备一个大的发布。现在，大多数软件开发人员被迫以更小的块来交付有价值的软件。他们花更少的时间准备，更多的时间交付。这允许组织在团队走得太远之前看到价值。

像早期的软件开发一样，在许多组织中，数据科学仍然有点神秘。该团队在如何开展工作方面仍有很大的回旋余地。然而，用不了多久，经理们就会开始提出更尖锐的问题。目前，大多数数据科学团队花费大量时间准备大型数据集。一旦这些经理开始提问，团队将不得不关注最少的可行的数据准备。

我曾经为一个组织工作，该组织专注于自动化清理非常大的数据集的过程。他们希望将其插入到一个更大的数据集，而这个数据集已经存在于他们的集群中。几个月来，科学小组一直专注于这项任务。他们下载了开源软件工具，并购买了一些商业产品来帮助他们准备数据。几个月后，他们创建了几个脚本、软件工具和实践，自动化了将这些大型数据集移入集群的过程。

在他们把它转移过来之后，他们和企业数据服务的副总裁开了一个会。他们用 PowerPoint 演示了群集消耗了多少数据。他们浏览了几张幻灯片，展示了清理和导入新数据集的难度。会议快结束时，副总统问了一个有趣的问题。他只是简单地问:“我们现在知道了哪些以前不知道的事情？”这个问题砰的一声落在房间里。从沉默中可以明显看出，几个月来没有人以这种方式考虑过这些数据。房间里的每个人都完全专注于能力。他们忘记了组织的真正价值。

如果他们以两周冲刺的方式交付，他们可能会更快地关注价值。他们可以使用较小的数据子集，而不是构建整个数据集，立即开始创建报告和研究数据。当你研究这些数据时，你会对其价值有更好的理解。当你只专注于清理和导入数据的时候，你就有把工作变成例行公事的危险。这就好像你花了所有的时间为你的晚宴布置桌子，却没有留下任何时间来准备一顿大餐。

讲述一个有趣的故事

呈现数据和讲述故事有很大的区别。首先，讲述一个故事更具挑战性，因为你要做更多的工作，引入数据和你对业务的了解，并加入你对世界的了解。

当你用数据图表做一个 PowerPoint 演示时，你在说，“这是我所看到的。”当你讲故事时，你是在说，“这是我所相信的。”这要困难得多，而且在某种程度上，这也更加私人化。这就是讲故事如此有价值的原因。

Note

有关如何讲述有趣的数据故事的更多信息，请参见第十九章。

当你讲故事时，你同时做了几件事。首先，您简化了数据的复杂性。您还可以定义参与创建这些数据的人员的角色。

接下来，你把自己对公司的了解带进来。这可能是通过你的经验或研究。你对人和数据进行简单的观察，然后把它放在组织的环境中。你不只是用数据来谈论地点和内容，你还要展示原因。

你做的第三件事是让你的数据更容易记忆。大多数研究表明，当你用 PowerPoint 格式展示某样东西时，很少的信息能被你的观众理解。这些要点可能很容易创建，但也很容易忘记。一个故事能更有效地抓住你的观众的注意力。如果你能编一个好故事，你更有可能让每个人都参与进来。

最后，一个好的故事会有行动的号召。它要么会告诉你一些新的东西，要么证明你继续寻找是正确的。如果你能讲一个好故事，让你的观众也参与进来。你就不太可能被人问:“你们为什么又要这样做？”

让我们回到我们的跑鞋网站。假设您的数据科学团队一直致力于提高销售额的问题。你和团队一起将问题分解成几个更小的问题。其中一个较小的问题是，“人们在购买他们的愿望清单上的东西吗？”

研究负责人和数据分析师一起工作，创建一个快速而肮脏的报告，看看有多少愿望清单项目被转换为购买。然后他们创建一个时间序列来观察这些购买是上升还是下降。通常，团队会在讲故事的前一天召开可视化设计会议。在这个会议中，他们会尝试将原始数据和丑陋的报告转换成一个漂亮的可视化，然后使用这个可视化来讲述一个有趣的故事。

数据显示，在夏季的几个月里，人们更有可能将他们的愿望清单项目转化为购买。这只是原始数据，但这不是一个非常有趣的故事。为什么人们在冬天对鞋子感兴趣，却要等到夏天才买？数据科学团队决定讲述一个故事。他们使用的标题是，“夏季梦想家:为什么冬季购物者在夏季买鞋？”接下来，数据分析师使用白板提出数据可视化的初稿(图 13-3 )。

图 13-3。

Purchasing habits throughout the year

在左上角，有更多的人在夏季(六月到九月)购买他们购物车中的商品，但是在左下角，购物车中的大多数商品都没有被购买。在右上角，购买的商品被放在购物车中超过 20 天，并被重复添加超过 4 次。查看如何在 http://ds.tips/truD6 创建此图表

注意这个故事是如何让数据变得更有趣的。想象一下，如果数据分析师使用标题“年度愿望清单转换率”，并在 PowerPoint 幻灯片中包含简单的时间序列图。像那样的东西不会引起任何人的兴趣。没有背景也没有行动号召。

第二天，数据科学团队使用他们的“夏季梦想家”可视化向组织的其他人讲述一个有趣的故事。这个故事说，你的许多顾客考虑在冬天跑步，但他们只在夏天买鞋。这个故事引发了更多的问题。人们在冬天穿着旧鞋跑步吗？他们只是不跑吗？他们不需要新鞋是因为他们大多在室内跑步吗？是否应该做一款专门为室内跑步设计的跑鞋？

希望你会在讲故事的过程中得到这些问题，然后你可以把它们添加到你的问题板上。如果你能讲一个好故事，你组织中的每个人都会想参与你的发现。

摘要

在这一章中，你看到了如何通过 DSLC 短跑锻炼自己。DSLC 有五个核心会议。在这些会议中，您的团队将使用一个问题板，分解工作，并讲述一个有趣的数据故事。在第十四章中，您将学习如何避免在数据科学冲刺中可能遇到的陷阱。

十四、在数据科学冲刺中避免交付陷阱

在避免陷阱这一章中，你会发现一些改变公司思维模式的方法。你可以从想象如何在没有目标的情况下工作开始。许多组织专注于目标并创建强大的法规遵从性部门。这些部门确保每个人都达到这些目标。这种专注会让你的团队无法探索和发现。数据科学团队需要利用意外收获，增加组织知识。他们需要强调探索而不是常规工作。

改变心态

许多公司在组建数据科学团队时低估了组织变革。这不是让一群统计学家看数据那么简单。这是指以不同的方式对待您组织的数据。它不再是需要控制的静态资源。相反，它是一个不可忽视的不断变化的见解来源。

Note

有关开始组织变革的更多信息，请参见第 25 章。

改变这种心态的一部分是放弃过去可能行之有效的策略。如果你想探索，你必须摆脱项目目标和计划的结果。这些往往是发现的障碍。你必须接受这样一个想法，即你不知道数据可能会导向何处。你甚至可以依靠简单的意外收获。

同时也不能没有任何目的和方向的流浪。你需要创造增加真正价值的组织知识。你必须是开放的和探索性的，同时仍然是务实的和由商业价值驱动的。如果你太开放，你的团队可能会迷失在数据中。你会探索死胡同，问一些没人有兴趣回答的问题。这会让你的利益相关者感到沮丧，并限制你的成功。另一方面，如果你太专注于目标，你不会发现很多新的见解。你会被限制在你已经希望成为事实的范围内。不会有太多新发现的空间。

如果你既想解释又想被商业价值所驱动，你需要改变你对工作的看法。第一步是仔细看看老朋友:计划好的目标。

没有目标的工作

您的数据科学团队将希望使用 DSLC 和 sprints，这样他们可以每隔几周讲述一些有趣的故事。这些实践有助于您的团队探索数据和提出好问题，并且应该有助于让您的团队专注于探索。尽管如此，对于许多团队来说，最大的挑战是试图改变组织的心态。

正如本章开始时提到的，大多数组织仍然将工作视为一系列目标和目的。这就是为什么大多数关键角色都专注于管理和法规遵从性。项目经理确保团队遵守项目计划。首席开发人员帮助维护某些编码标准。质量保证经理执行像六适马这样的标准。即使是首席执行官也专注于为组织的其他成员设定清晰的目标。所有这些受欢迎的角色都以合规性为中心。他们确保团队忠于他们的目标。担任这些角色的人往往很有影响力。很有可能，他们会尝试将这种目标驱动的心态应用到您的数据科学团队中。

这对数据科学团队来说是一个真正的挑战，因为他们需要探索并使用经验过程来研究和学习数据。很难摆脱典型的目标。根据定义，探索就是寻找和发现不熟悉的东西。目标是关于忠于你的预期目标。

你当然可以混合探索和目标。如果你发现自己在一个新的城市，你可能会有一个寻找美食的目标。然后你在这个地区寻找好吃的小吃摊或餐馆。你的目标是找到晚餐，但你仍然愿意探索新的想法。问题是大多数组织没有这么灵活。他们倾向于狭隘地定义他们的目标。目标本身成为最大的焦点。一个团队不会因为发现新事物后改变路线而出名。一个成功的团队通常有一个明确的目标，并在预期的时间框架内实现他们的目标。这种对目标的关注会为探索创造一个非常困难的环境。

让我们回到我们的跑鞋网站。假设您的数据科学团队的目标是创建一个报告，按各种信用卡细分购买情况。你想知道接受不同的信用卡是否会增加销售额。当团队探索数据时，如图 14-1 所示，他们注意到一些意想不到的事情。看起来鞋的销量和顾客评分之间有正相关关系。你可能会认为评分最高的鞋子可能会有更高的销量。然而，数据科学团队注意到，任何评级的鞋子都有更高的销售额。销量最低的鞋子是那些根本没有评级的鞋子。

图 14-1。

Correlation between shoe sales and customer ratings Note

假设 0 为无评分，其余为真实评分。总销售额接近 0 的大多数商品都没有评级。然而，其余的数据并没有表明更高的收视率会带来更高的销售额。事实上，原因可能恰恰相反。因为销售额更高，更多真正购买了该商品的人愿意在网站上留下反馈。然而，在底部的图表中，如果我们忽略那些没有评级的，几乎没有任何相关性。查看如何在 http://ds.tips/8refR 创建这些图表。

基于这些数据，该团队决定利用这一新发现。他们创建了一套完全不同的报告，将评分与顶级鞋的购买相关联。在接下来的讲故事环节中，他们会讨论如果顾客认为某款鞋不受欢迎，他们最不可能购买。事实上，一双评级很糟糕的鞋仍然比一双没有评级的鞋更有可能卖出去。这个新发现完全出乎意料。该团队的目标是查看新的信用卡数据，然后转向开始查看评级数据。

在典型的项目中，这是完全不可接受的。你不希望你的团队有一个既定的目标，然后根据他们自己的标准改变方向。然而，这正是您希望从数据科学团队那里获得的经验探索。事实上，许多数据科学团队试图远离典型的目标。他们可能有寻找模式的开放式概念。他们可能只是浏览数据，看看是否有什么突出的东西。他们想看看数据中是否有有趣的东西。这些团队发现，明确定义的目标往往会成为发现的障碍。

当你在一个数据科学团队中时，试着记住你正在做一些与组织中大多数其他团队不同的事情。借助数据科学，如果您专注于发现，就能从数据中获得最大价值。你应该与你的经理密切合作，沟通这种差异。不要低估试图改变他们期望的挑战。大多数人花了很多年专注于实现目标。一组人探索数据寻找新的东西可能不容易被接受。

利用机缘巧合

您已经看到，为您的数据科学团队设定目标可能会很困难。尽管如此，许多组织发现很难想象没有他们的工作。目标无处不在:有职业目标，也有学习目标，励志书讲个人目标。这些目标指导着我们的大部分工作，但它们可能没有你想象的那么有价值。

在过去的几年里，在这个领域已经做了一些有趣的工作。它来自一个你可能意想不到的地方:机器学习和人工智能的世界。试图让计算机显示智能行为的人们发现，我们所知道的很多东西都是基于无计划的发现。事实上，我们从流浪中学到的东西比我们从既定计划中学到的要多。

关于这个主题的最好的书之一是由肯·斯坦利和乔尔·雷曼所著的《为什么伟大不能被规划:目标的神话》。肯·斯坦利教授在中佛罗里达大学经营着一个研究人工智能的研究小组。在书中，他说，“目标实际上成为更令人兴奋的成就的障碍，比如那些涉及发现、创造、发明或创新的成就。”这来自一位研究人工智能的顶尖计算机科学家。这不是狄巴克·乔布拉的励志名言。

你应该这样想，你越专注于目标，就越不可能有有趣的发现。数据科学团队中的每个人都应该适应创造性的漫游。事实上，斯坦利教授指出，该团队实际上应该依靠纯粹的意外收获。

Serendipity 是一本关于人工智能的书中出现的一个奇怪的词。简单来说，意外之喜就是事情刚刚发生。这是无法预测或计划的。就像你在街上偶遇一个朋友，然后决定一起坐下来喝杯咖啡。这是未计划的，未规划的，未知的。

听起来可能很奇怪，数据科学团队必须依靠一些意外收获。有时团队成员会在数据中看到一些他们没有预料到的东西。它会看起来有趣或不寻常。对这个团队来说，追踪这个发现是很重要的。你不希望他们以牺牲发现为代价专注于目标。

斯坦利教授称这些为垫脚石。这些都是有趣的事情，最终导致见解。如果你忽视它们，你很可能会错过关键的发现。

让我们回到我们的跑鞋网站。数据科学团队的任务是预测网站在即将到来的一年中应该有多少新的销售额。在查看数据时，分析师发现了一些有趣的事情。如图 14-2 所示，在过去的几周里，周日的销售额略有下降。如果团队完全专注于目标，他们可能会忽略这个有趣的发现，因为很难想象轻微的下降可能会帮助他们创建一个预测未来销售的报告。专注于发现的数据科学团队将跟进这些有趣的信息。

图 14-2。

Total sales by shoe types and avererage across all types by day of week Note

平均而言，所有类型的鞋在周日的总销售额都略有下降，但不同类型的鞋在一周的不同日子达到峰值。参见如何在 http://ds.tips/tuc2E 创建此图表。

可能不会有任何结果。事实上，这些小发现中的大部分只会是死胡同。然而，他们中的一些人将成为未来非常有价值的东西的垫脚石。团队对数据探索得越多，他们就越能建立与未来问题的联系。

所有这些语言是你在组织中通常听不到的。像垫脚石、意外收获和发现这样的词听起来更像是你在浪漫喜剧预告片中使用的关键词。然而，这些是尝试学习新的和有趣的东西的关键部分。

加拿大哲学家马歇尔·麦克卢汉曾经说过:“我不知道谁发现了水，但它不是鱼。”许多发现都是因为不知道你的信息会引向何方而感到舒服。你必须能够追求意想不到的东西。你走向发现的垫脚石只有在你的路的尽头才会清晰。关键是不要忽视那些看起来有趣的事情，只是为了忠于你的目标。

请记住，数据科学是将科学方法应用于您的数据。科学方法的一个关键部分是进行观察和提出有趣的问题。不要为了短期规划而减少你的探索。

增加组织知识

您已经看到了一种可以预测的方式来获得重大发现，那就是允许您的团队探索数据并寻找有趣的联系。还有 DSLC，它迫使团队每两周讲述一次有趣的故事，并让组织了解团队正在做什么。代替目标规划，组织得到可预测的交付。给你的团队一个可预测的框架是让他们专注于积累知识的好方法。每两周一次的节奏分享他们的故事。如果组织中的其他人不喜欢他们的故事，他们可以鼓励他们朝不同的方向发展。

DSLC、sprints 和 exploration 共同提供见解和知识。如果你在一个数据科学团队工作，你应该试着平衡这三件事。DSLC 为团队提供了考虑交付价值的蓝图。团队应该确定角色，并在提问、研究和讨论结果的循环中工作。

短跑给组织一个可预测的速度。没有 sprint，团队就有花费太多时间准备而不是交付的危险。大多数时候，您的数据分析师都在清理和准备大型数据集。两周的 sprint 迫使你的数据分析师在尽可能小的块中工作，并鼓励他或她交付许多较小的报告，而不是一个大的演示文稿。

最后，组织需要非常重视对数据的探索。团队应该有追踪有趣发现的自由。组织的其他部分仍然可以看到团队的工作，但是工作可能会改变。它可以基于一个偶然的发现。

冲刺和探索之间的平衡有助于保持对话活跃。团队有额外的自由，作为回报，组织得到每周的反馈。如果做得好，数据科学团队将与组织密切合作，帮助员工和高管了解业务和他们的客户。这是轻量级结构和频繁发现的良好平衡组合。

也就是说，这不是一个容易的平衡。在一些冲刺阶段，团队可能无法交付任何有趣的东西。其他时候，数据集看起来如此庞大和复杂，以至于不可能在两周的冲刺中分解。

这个 DSLC 框架不是为解决这些问题而设计的。这只是照亮斗争的一种方式。它迫使团队往小处想，这鼓励组织允许探索。

确保你的 sprint 始终传递价值的一个方法是，在每次讲故事的时候，都要有一个清晰的行动号召。你的听众会对增加组织知识非常感兴趣。您可以就他们如何利用这些新数据提出明确的建议，从而帮助强调这些知识的价值。

让我们回到你的跑鞋网站。你看到了一双鞋是否有评级和它卖得有多好之间的明显联系。在你的讲故事环节中，你应该建立一个清晰的视觉效果，展示销售和评分之间的联系。新的组织知识是，没有评级的鞋子不太可能卖出去。然而，这不应该是你的故事的标题。相反，你应该展示你的组织如何从这些新知识中获得价值。你可以把这个形象化的标题定为，“增加我们的评级产品数量应该会增加整体销售额。”

有了这个头衔，你不仅仅是说出了组织所知道的。你所做的是清楚地概述你的团队交付的价值。在一周内，数据科学团队就如何提高销售额提出了建议。有人呼吁采取行动。如果你想增加网站的销售额，鼓励顾客评价他们的产品。这种行动号召可以针对组织的其他部分，也可以重定向到团队。在讲故事环节，组织可能会建议数据科学团队想出一个有趣的故事，告诉他们如何提高产品评级。

当你在数据科学团队工作时，试着记住你的组织将以一种非常实际的方式看待新知识。一定要平衡 DSLC 与冲刺和探索，以传递有趣的故事。这些故事应该有新的组织知识和明确的行动号召。当你的团队有明确的行动号召时，你更有可能从组织的其他人那里得到有趣的反馈。他们可能会要求你继续你的故事，或者创造新的故事来给予更多的指导。

注重对日常工作的探索

1999 年，两位心理学家进行了一项实验。 ³ 他们拍摄了一段六个人传球的视频。他们向 40 名学生展示了这段视频。他们要求学生数一数球从一个人传给下一个人的次数。大多数学生都能数出球传了多少次。他们没有说的是，一个穿着大猩猩服装的人会走到屏幕中间。大猩猩停在中间，然后离开镜头。当被问到时，只有一半的学生没有注意到大猩猩。事实上，参与者非常确信它不在那里，他们不得不重放视频。

心理学家公布了他们的研究结果，并称之为知觉盲。当人们如此专注于日常任务，以至于对有趣的事情视而不见。看视频的学生太专注于数通行证，以至于没有注意到有人穿着大猩猩的衣服。

这项研究已经重复了几十次。一项实验将一个跳舞的大猩猩的小图像放在 CT 扫描上，以检查放射科医生是否会注意到。 ⁴ 原来，80%没有。即使知道这项研究的人也只是稍微更有可能发现一些意想不到的东西。

这表明日常工作经常关闭我们大脑中看到意外事件的部分。许多人在做复杂的日常工作，但却看不到大猩猩。

这对您的数据科学团队来说是一个真正的危险。请记住，数据科学的大部分价值在于探索。您希望团队中的每个人都注意到一些有趣的事情，但是工作的一部分是例行公事。您的数据分析师仍然将大部分时间花在清理数据上。你要注意的是，当你的团队变得如此专注于常规，以至于错过了一些意想不到的东西。

我曾经为一家公司工作，该公司试图理解为什么顾客会点击某些广告。每个广告都展示了一辆汽车的图片。当客户点击汽车时，图像和点进被记录到集群中。数据科学团队创建了数据的几种可视化形式。他们专注于创造实时成功率和点击率。有很多工具可以帮助他们以有趣的方式展示这些信息。数据科学团队非常忙碌，并适应了可预测的数据收集节奏。

在一次讲故事的会议上，数据分析师深入点击数据可视化，以显示数据中的详细信息。作为一个例子，他们展示了一个红色福特野马的广告结果。出于某种原因，这个广告做得非常好。它有更高的点击率。团队中的一个利益相关者打断了演示，并问为什么这个广告如此成功。数据科学团队没有考虑这个问题。他们太专注于获取点击率数据，以至于没有真正注意到任何有趣的东西。他们的工作已经成为例行公事。他们收集数据，清洗数据，然后上传到集群。他们没有问很多有趣的问题。这就像一只大猩猩走进了他们的数据，而他们甚至没有注意到。

数据科学团队在下一次冲刺中解决了这个问题。研究负责人问了一些关于成功广告的有趣问题。是什么让这个广告更成功？是车的牌子吗？是车的类型吗？是车的颜色吗？为什么网站上的客户更有可能购买这辆车？

在经历了这些问题之后，团队讲了一个有趣的故事。原来车的颜色对点击率有轻微影响，如图 14-3 。这一点，加上汽车的品牌和型号，可能是这个广告更成功的原因。数据科学团队在结束下一个讲故事环节时呼吁采取行动。他们建议将更多的汽车换成红色会提高他们的整体广告收入。

图 14-3。

Color click rate Note

在所有颜色中，红色的点击率可能比其他颜色稍高。如果按品牌细分，只有福特的红色点击率高于其他品牌。比如对于日产来说，蓝色是点击率最高的颜色。如果您进一步深入了解红色福特车型，只有野马的点击率极高；其他型号相对较低。参见如何在 http://ds.tips/wr5nU 创建此图表。

该团队很幸运，他们有一个团队之外的利益相关者指出了他们数据中的大猩猩。大多数团队必须集中精力确保他们提出了有趣的问题。

记住，你的团队提供的是洞察力，而不是数据。最干净的数据或最大的集群没有奖项。不过，你的团队很容易专注于数据科学的这些常规部分。当这种情况发生时，你的团队可能不会在他们的数据中注意到大猩猩。

将洞察力与商业价值联系起来

即使你的团队发现了一些有趣的东西，你仍然要把它和真正的商业价值联系起来。将探索与商业价值联系起来并不容易。如果团队知道去哪里找，那就不是探索了。通常，在数据科学中，直到你发现了洞察力之后，你才知道商业价值。在你传授任何新知识之前，你必须走遍整个 DSLC。

这是短跑训练的主要好处之一。你将每两周一次传达一点点这些见解。在每一次冲刺中，你都将建立在你所知道的基础上。研究主管可以评估您的见解，并将它们与商业价值联系起来。如果团队走错了路，他们可以转向更有趣的东西。

我曾经为一家零售商工作，这家零售商试图提高工人的安全性。他们创建了一个收集所有非结构化数据的 Hadoop 集群。集群有视频、图像和受伤报告。数据科学团队使用这些数据创建了该组织所有工伤的单词云，然后该团队在他们的讲故事会议上展示了该云的简单可视化(见图 14-4 )。当他们开始讲述他们的故事时，你可以看到房间里的每个人都在摩擦他们的手或交叉他们的腿，因为团队描述了常见的伤害。会议结束时，数据分析师说他们将利用下一次冲刺来完善他们的分析。他们将创建数据可视化，讲述更深层次的故事，并涵盖更具体的伤害。

图 14-4。

Word cloud of all the organization’s job injuries Note

参见如何在 http://ds.tips/waxU8 创建此图表。

房间中的一名利益相关者问了数据科学团队一个简单的问题:“为什么您关注的是伤害，而不是造成伤害的设备？”房间里的每个人都能同情受伤的人。然而，真正的价值是试图防止未来的伤害。该团队应该使用预测分析来判断这项工作是否太危险。

数据科学团队一直专注于谁受伤了，这是一个需要讲述的艰难故事。然而，对现有工人的真正商业价值是防止未来的伤害。该团队需要查看人们受伤时使用的设备，或者他们遵循的流程。这是一组全新的待探索的数据。

如果团队没有进行短跑训练，他们可能要花几个月甚至更长时间来提炼和探索受伤的数据。他们会讲有趣的故事，但不是利益相关者想听的故事。相反，在接下来的冲刺中，团队专注于危险的活动。他们以之前的数据为基础，讲述了一个关于危险设备和过程的全新故事。

数据科学团队探索与商业价值没有明确联系的数据并不罕见。事实上，Gartner Group 估计，85%的数据分析团队的工作与商业价值毫无关联。 ⁵ 这是一些工作的性质。不了解的东西很难评价。另一部分是确保你和利益相关者有一个清晰的联系。您的研究主管将与企业合作，将团队的见解与实际价值联系起来。

如前所述，在 sprints 中工作可以让团队在发现有趣的事情时快速转向。涉众可能不总是知道在哪里找到商业价值。相反，他们更有可能告诉你不要去哪里。尽管如此，这个反馈循环对于保持团队在正确的轨道上是必不可少的。知道不去哪里可能最终会让你走上正确的道路。

数据科学团队应该在做有趣的工作。这是组织中你可以积累真正洞察力的地方之一。然而，该团队不会对典型的业务压力免疫。如果您的数据科学团队没有产生真正的价值，过不了多久，利益相关者就会开始质疑这项工作。

大多数数据科学团队的工作方式与组织的其他部门有很大不同。如果你不迅速开始存钱，你就不太可能存在足够长的时间来改变现状。创造价值的最佳方式是在业务和数据科学团队之间建立紧密的反馈回路。涉众应该知道团队在每个冲刺阶段都在做什么，并且工作应该明确地与他们认为有价值的东西联系起来。

在每个讲故事环节中，尝试讲述一个简单的故事，讲述团队学到了什么，以及它将如何帮助组织的其他成员。这些会议对于保持团队工作和专注于有趣的工作至关重要。

摘要

在这一章中，你学会了如何通过想象如何在没有目标的情况下工作来改变公司的心态。您发现专注于目标会阻止您的团队探索和发现。在第四部分，你将学习如何提出好问题。要提出好的问题，你必须理解批判性思维，这你会在第十五章学到。

Footnotes 1

肯尼斯·o·斯坦利和乔尔·雷曼，《为什么伟大不能被规划》(施普林格科学商业媒体，2015 年)，第 978-3 页。

引用自贝尔和豪厄尔公司总裁彼得·G·彼得森在技术和世界贸易研讨会上的演讲，1966 年 11 月 16-17 日，伊利诺伊州，芝加哥，第 83 页，引用第 91 页，会议由美国商务部和国家标准和技术研究所主办，国家标准局杂项出版物，美国政府印刷局，华盛顿特区(HathiTrust)hdl.handle.net/2027/uc1.b4112688?urlappend=%3Bseq=103

丹尼尔·j·西蒙斯和克里斯托弗·f·沙布里斯，“我们中间的大猩猩:动态事件的持续疏忽性失明”，《感知》28，第 9 期(1999):第 1059-1074 页。

Trafton Drew、Melissa L-H. V 和 Jeremy M. Wolfe，“隐形大猩猩再次出击:专家观察者的持续疏忽性失明”《心理科学》24 卷 9 期(2013):第 1848-1853 页。

特德·弗里德曼和库尔特·施莱格尔，“数据和分析领导力:用可信数据赋能人们”，高德纳商业智能、分析和信息管理峰会，2016 年，澳大利亚悉尼。

十五、理解批判性思维

对于您的数据科学团队来说，问题非常重要。在这一章中，你会发现如何利用问题的力量。然后你会发现那些有趣的问题是批判性思维的一部分。你还将了解批判性推理，以及如何寻找合适的问题。

利用问题的力量

想象一下，你正在给一群同事做演示。你想出了一个增加公司销售额的方法——一个花了你几周时间准备的策略。在你演讲的中途，有人打断你，问你一个关于你的假设的问题:“你是怎么得出你的结果的？”你对这个问题有什么反应？在一些组织中，这将被视为对抗和好斗。通常，这类问题来自持怀疑态度的主管或不同意的人。不管怎样，这都超出了演示的正常节奏。

在西德尼·芬克斯坦的《为什么聪明的高管会失败:你能从他们的错误中学到什么》一书中，他指出许多高管会毫无疑问地接受好消息。他们把问题留给坏消息或不同意时，这意味着大多数组织把问题视为一种不同意。当没有任何问题时，人们通常会重复同样的错误。他们倾向于群体思维，有盲点。许多公众失败可以追溯到从未被问过的关键问题。

正如本书中提到的，大多数组织仍然专注于完成工作。他们有任务声明，鼓励团队推动和交付，并按照明确定义的目标和积极的时间表工作。很难想象一个组织或会议中每个人都会问有趣的问题。在许多组织中，根本没有时间来鼓励这种类型的提问。然而，让你的数据科学团队存在于现实之外是很重要的。你的团队需要创造一个对有趣的问题开放的环境。您组织的其他成员可能生活在一个陈述的世界中，但是您的团队需要适应一个充满不确定性、争论、问题和推理的世界。

当你思考这个问题时，数据科学已经给了你很多答案。你将拥有显示购买趋势的报告，以及显示产品评级的万亿字节数据。你的团队需要使用这些答案来提出有趣的问题。由你来创造一个环境，让每个人都可以自在地质疑彼此的想法。

有几件事需要记住，以帮助您的数据科学团队保持正轨。

首先，如果你有一个新成立的数据科学团队，这个团队不太可能擅长问正确的问题。那是因为他们没怎么练习过。大多数团队不会问问题，因为好问题会挑战你的思维，不容易被忽视或忽略。他们迫使团队解开已经完全理解的东西，这需要比被动倾听更多的工作。

当你在学校时，你的老师可能会快速浏览材料，因为他们希望你记住事实并通读专家的建议。当你举手的时候，可能是为了一个很简单的问题。可能是一些很平常的事情，比如“这个会出现在试卷上吗？”没有人提出更大胆的问题，比如“我们为什么要学习这门学科？”或者甚至是，“我们能学到不同的东西吗？”

在工作中，你可能没有太多机会问有趣的问题。大多数公司仍然根据员工贯彻公司愿景的能力来提拔他们。你需要和你的同事好好工作。总是问问题并不总是最好的相处方式。您需要为您的数据科学团队改变这种观点。

第二件要记住的事情是，问问题真的很难。大多数人还是喜欢简单的陈述。告诉全世界你的想法是很容易的。向一个能提出好问题的人捍卫你的想法不是那么容易的。例如，想想你为自己做的健康的事情。也许你吃某些食物或做某些运动。现在问问你自己，你怎么知道它是健康的？是因为有人告诉你还是因为你的感受？如果是因为有人告诉你，你怎么知道那个人是对的？许多专家对什么是健康有不同意见。哪些专家是对的？

不用多久就会意识到提问会让人精疲力尽。解构你已经相信是真的东西需要很多工作。现在想象一下在小组环境中做这件事。

请记住，提出好的问题是很难做到的，而且并不总是被接受。尽管如此，这对您的数据科学团队来说是必不可少的。最好的问题会让你对你的数据有新的见解，这将帮助你建立你的组织知识。

淘金

提出有趣的问题是批判性思维的关键部分。所以我们来问一个有趣的问题。什么是批判性思维？大多数人认为批判性思维是批评的一种形式。你在判断一件事，决定它是好是坏，是对是错。这是否意味着如果你不同意某人的观点，你就在运用批判性思维？大多数人会说不。

批判性思维不是你判断事物的能力。批判性思维中的“批判性”是关于发现可能会削弱想法基础的关键问题。这是关于你的能力，去挑选组成一个被接受的信念的结论。这与你的判断无关，而是你发现本质的能力。

许多组织抱怨他们没有运用批判性思维的人。试图找到关键问题不是你能一直做的事情。有点像跑步。大多数人可以做一点，然后通过一些锻炼，他们可以做得更多一点。再好的运动员也不能天天跑。

想想我们的跑鞋网站。想象一下，公司发客户优惠券，年底有一天的销售活动。月底，数据分析师运行了一份报告，显示销售额增长了 10%，如图 15-1 所示。很容易说较低的价格鼓励了更多的人买鞋。较高的鞋销量弥补了折扣价格，促销活动也发挥了作用。越来越多的人购买鞋子，公司收入也越来越多。许多团队会就此止步。

图 15-1。

Average sales quantity

按商品 SKU 和优惠券代码(包括无优惠券代码)旋转平均销售数量，取每个优惠券代码的平均销售数量并减去无优惠券代码的平均销售数量，您会得到使用每个优惠券代码与不使用优惠券代码相比平均多销售了多少单位。对于具有最高折扣(60%)的优惠券代码，平均比不使用任何折扣多 0.1 个单位销售。参见如何在 http://ds.tips/6acuV 创建此图表。

这是您的数据科学团队希望应用其批判性思维的地方。记住这不是好与坏的问题；它是关于发现关键问题，例如:

我们怎么知道收入的增加与促销有关呢？也许同样多的人会不顾促销而买鞋。
哪些数据会显示促销和销售之间的紧密联系？
促销有效吗？

每个人都认为促销是有效的。所以很多公司都有。这意味着他们为你的网站工作吗？这些问题为研究领导开辟了一个全新的领域。当你接受促销有效时，一切都很容易——它们有效了，所以让我们做更多的促销。

既然团队已经提出了他们的问题，是时候让研究负责人转向另一个方向，提出更关键的问题，例如:

我们如何证明这些促销活动是有效的？
要不要看一天活动的收入？
顾客买了打折的东西吗？
仅仅是为了让更多的人访问网站吗？

这种技术通常被称为淘金。这是指早期的采矿技术，当时矿工们会在沙子中寻找黄金。沙子是你的团队问的所有问题。研究负责人与团队合作，寻找值得探索的黄金问题。不容易，因为确定哪些问题是金块是一个价值判断。由研究负责人决定问题是否有趣。

淘金的意义在于，尽管你会有很多一次性的问题，但少量的金块可以改变你的组织的运作方式。每一块金块都会有很多沙子。筛选那么多材料需要很大的耐心。

如果你是团队的研究负责人，试着积极倾听每个人的问题。通常，他们的问题是你的问题的早期版本。不要害怕问大的“为什么”对每个人来说，促销的作用似乎显而易见。这并不意味着你应该忽略这个问题。如果您对答案不满意，您可能希望与数据分析师一起创建报告。

另外，一定要注意你自己的结论。记住，批判性思维就是要分解这些结论。确保你评估了团队其他成员所说的话。

这可能是非常累人的工作。你不想因为没有花时间问问题而被迫接受一个结论。如果你没有得到这些关键问题，请随意重新安排会议时间。当每个人都觉得更有活力的时候，重新在一起。

专注于推理

我们中的许多人都有坚定的信念，这些信念指引着我们，帮助我们理解新事物。当你在数据科学团队工作时，信念可能会强烈影响你和其他人如何看待相同的数据。这就是为什么批判性思维的一个关键部分是理解这些信念背后的推理。你不应该只是能够描述你的信念——你需要描述这些信念背后的推理。

推理是支持关于数据的结论的证据、经验和价值。当你在数据科学团队工作时，理解彼此的推理是很重要的。这将有助于团队提出有趣的问题。

我们来看一个简单的语句作为例子。"你应该多喝绿茶，因为这对你的健康有好处。"这里的意思是你应该多喝绿茶。理由是这对你的健康有好处。当你运用批判性思维时，你想问一些关于推理的问题。为什么对身体有好处？你怎么知道这对你的健康有好处？对大家的健康有好处吗？如果你不运用批判性思维，你就只剩下想法了。你只是接受了你应该多喝绿茶的事实。

现在，让我们回到我们的跑鞋网站。假设设计团队正在研究他们从客户那里收到的一些反馈。网站上的许多图片描绘了处于最佳身体状态的跑步者。您的数据科学团队正在尝试确定更改这些图片是否会影响销售。

你的团队和网页设计师一起做一些实验。他们随机将健康跑步者的图像替换为不健康和年长的图像。该团队与数据分析师合作，创建报告来查看图片更改后数据的差异。报告显示整体销售额下降，如图 15-2 所示。

图 15-2。

Drop in overall sales

看看时间序列，你会发现“较不健康和较老”版本的页面每天的总销售额略低。如果你看一下五天移动平均线,"较不健康和较老"的版本在整个月都较低。参见如何在 http://ds.tips/X3xex 创建此图表。

现在球队需要谈论结果了。你的项目经理认为销售额下降是因为跑步者被图片所激励。他们不想要展示他们长相的照片。相反，他们想要他们想成为的人的照片。销售额的下降使得鞋子看起来不那么有效。它模糊了这样的信息:如果你买了这双鞋，你会变得更健康。

这位数据分析师不同意这种说法，他认为销量下降是因为顾客认为照片代表了一个理想的顾客。结果，顾客以为这些鞋是为刚开始跑步的人设计的。

要运用批判性思维，你必须看看这些陈述背后的推理。在这两个例子中，关键词是“因为”和“结果”这些话暗示着推理会随之而来。

对于项目经理来说，理由是客户“不是被他们是谁所激励，而是被他们想成为谁所激励。”对于数据分析师来说，理由是“客户认为产品是为刚开始跑步的人设计的。”

现在你有了推理，你可以开始寻找关键问题。顾客有动力看起来年轻健康吗？顾客真的认为不太合脚的人意味着鞋子是给新跑步者穿的吗？你认为谁的论点更有力？更重要的是，每个论点的弱点是什么？为什么一个不太健康的跑步者会被认为是一个刚刚开始跑步的人？你可能会认为情况正好相反。年长的跑步者通常已经跑了很多年了。

项目经理的论点也有弱点。顾客真的会相信买一双跑鞋会让他们看起来更年轻吗？这是否意味着更年轻、更健康的跑步者的照片会增加销量？

现在，您已经有了推理和一些关键问题，您可以与研究负责人一起寻找数据并确定最有趣的问题。购买特定鞋子的顾客的平均年龄是多少？有什么策略可以用来判断他们是否是跑步新手？这些问题将有助于你获得关于顾客动机的新见解。

推理是找到关键问题的第一步。记住批判性思维帮助你的团队从他们的报告中获得更多的价值。你可以帮助研究领导决定什么是有趣的。这些有趣的问题将帮助你的团队获得最好的洞察力。

测试你的推理

想想你最后一次听到别人说他或她错了。不是关于一家餐馆或一部电影的错误，而是关于他或她热情地相信的事情的错误。你能想到什么吗？如果不能，也没关系。很少看到有人改变主意。在一些组织中，这被视为摇摆不定或糟糕的领导，这只是你不常看到的事情。

加州大学的物理学家理查德·穆勒花了数年时间反对全球气候变化。他帮助建立了伯克利地球组织。他的大部分工作是由天然气和石油工业资助的。后来，他自己的研究发现了全球气温上升的非常有力的证据。他断定他错了。气候变化应归咎于人类。穆勒看到对他不利的事实太强大了，不能忽视，所以他改变了主意。他没有悄悄地做这件事。他在《纽约时报》的专栏上写了一篇很长的文章，概述了他最初的观点以及为什么反对意见更强烈。

记住，怀疑别人的想法是很容易的。难的是对自己的怀疑。从两个方面思考批判性思维:

强烈的批判性思维:当你思考关于自己信念的批判性问题时。
弱感觉批判性思维:当你只找到批判性的问题来挑剔别人的信仰时。

你可能知道更多的人运用弱感觉批判性思维。他们对自己的信仰有经过深思熟虑的论证，并且永远不会质疑自己的信仰。如果你提出问题，他们会尽力捍卫自己的立场。他们不会在你的问题上做文章，也不会自己创造新的问题。在您的数据科学团队中，您希望应用强烈的批判性思维。团队中的每个人都应该质疑自己的想法，提出有趣的问题，并探索自己论点中的弱点。这就是你应该如何在你的数据科学团队中运用批判性思维。

试着想象这在你的数据科学团队中会是什么样子。假设跑鞋网站开展了一项促销活动，并向每个购买产品的人发送了一张优惠券。数据科学团队查看使用优惠券购物的人数。数据显示，8%的顾客看了优惠券。在这 8%中，大约 5%的顾客在优惠券到期前使用了它。数据还显示，在优惠券发送给客户的当天，收入有所增加。见图 15-3 。

图 15-3。

Number of people who used the coupon to make a purchase

左边的图表显示大约 50%的顾客收到了优惠券。第二个柱状图显示，在这些人中，只有 8%的顾客真正点击了优惠券。只有 5%的人使用了优惠券。右图显示了优惠券发给顾客当天的销售高峰。优惠券确实影响了“无优惠券”的销售，但如果你比较实际数字，优惠券销售只占总销售额的 10%，因为没有多少人真正点击和使用优惠券。查看如何在 http://ds.tips/pre6E 创建这些图表。

您的数据科学团队希望了解此次促销活动产生了多少收入。所以让我们运用一些强烈的批判性思维。你可以争辩说，所有进入网站的新收入都是推广的直接结果。

这个论点的薄弱之处是什么？也许一些收到优惠券的顾客最终购买了促销活动之外的产品。应该算吗？也许你应该只计算实际使用优惠券的人。问题在于，你没有看到促销的全部效果。也许发送一封电子邮件询问顾客为什么他们有一段时间没去购物会同样有效。这可能是一个有趣的实验。

您的数据科学团队应该能够质疑所有这些想法。你团队中的某些人可能会强烈地感觉到任何新的收入都是促销的结果。这个人还应该了解这种方法的弱点，并能够提出有趣的问题，例如，“如果我们以这种方式看待数据，我们是否完全了解客户？”也许，客户只是需要被提醒你的网站。如果你只看实际使用优惠券的顾客，更容易把他们分成两类:一类是因为省钱而被激励的，另一类是需要提醒的。

当你的团队运用强烈的批判性思维时，感觉应该更像是一场公开的讨论。没人应该觉得自己在自卫。这种方法对于你的团队来说是一种很好的方式，可以提出有趣的问题，并最终获得更深刻的见解。

摘要

在这一章中，你学会了如何利用问题的力量，以及那些有趣的问题是批判性思维的一部分。你还发现了什么是批判性思维，以及你如何淘金来得到伟大的问题。最后，您探索了在提问和测试推理的同时使用推理。在第十六章中，你将学习如何鼓励人们提问。

Footnotes 1

Sydney Finkelstein,《为什么聪明的高管会失败:你能从他们的错误中学到什么》。企鹅，2004 年。

理查德·a·穆勒，“一个气候变化怀疑论者的转变”，观点页，《纽约时报》，2016 年 1 月 2 日， http://www.nytimes.com/2012/07/30/opinion/the-conversion-of-a-climate-change-skeptic.html?_r=0 。

十六、令人鼓舞的问题

在这一章中，你将学习各种鼓励提问的方法。您将了解如何召开问题会议。接下来，您将探索不同类型的问题，以及如何使用问题板和问题树有效地显示和组织这些问题。最后，你将学习如何发现新问题，我们将在第十七章中详细介绍。

运行问题会议

提问和学习是数据科学和团队只看数据的关键区别。请记住，数据科学是关于使用科学方法来获得洞察力。提出好的问题是这种科学方法的核心。

正如我们在本书中所讨论的，组织通常将问题视为一种判断，而不是一种学习的方式。作为数据科学团队的领导者，你需要确保你的团队提出好的问题。你要做到这一点，最好的方法之一就是建立一个良好的交流思想的环境。

研究负责人是提问负责人，他确保团队提出好的问题。研究负责人也应该关注学习而不是判断。团队中的每个人都应该努力做到深度倾听，这是一种更专注的方式来倾听对方的想法，并且能够在不感到被评判的情况下反击这些想法。

建立这种环境的一个好方法是召开问题会议。在这些会议上，鼓励与会者在发言前提问。这有时被称为问题优先的方法。这些会议是关于创造最大数量的问题。他们专注于每个人的提问和倾听。如果你是研究负责人，不要让任何人带着智能手机或笔记本电脑。你希望每个人都专注于倾听。

我曾经为一个刚开始研究数据科学的组织工作过。该团队正在开会预测将有多少人参与医学研究。数据分析师展示了他们过去研究的图表，并表示他可以创建一个数据模型来预测谁可能会参与。有一段短暂的沉默，然后会议结束了。一个星期后，团队又聚在了一起。数据分析师提交了一份显示历史数据的报告，这些数据表明每个研究可能都有一定数量的参与者。

现在，想象一下，如果这个会议集中在好的问题上。如果你是研究负责人，你可以这样开始会议:“每个人都知道我们为什么要开这个会吗？”然后等待回应。一个好的问题领导者不害怕短暂的沉默。不要试图回答自己的问题。给房间里的每个人时间思考他们的答案。

一旦你对每个人都理解了会议内容感到满意，就提出挑战。你可以用这样的话来总结挑战，作为会议的开场白，“我们浪费了很多钱，因为我们不知道谁会参加我们的医学研究。”将解决方案留给团队的其他成员。你也可以用一些非常开放的话题作为开场白，比如“我们需要更好地预测谁会出现。”坐下来，等着看是否有人开始提问。如果几分钟后，没有人说什么，你可以问这样的问题，“每个人都明白为什么这是一个挑战吗？”

你希望从团队中得到的是类似这样的问题，“有些研究比其他研究填充得多吗？”这些类型的问题允许您的数据分析师为报告提供更完整、更有趣的数据。

你要避免的是会终止对话的快速陈述，例如，“我们应该做研究，看看我们的竞争对手是如何填满他们的医学研究的。”这使得人们无法想出他们最好的主意。请记住，讨论给你的团队带来了最大的价值。您希望团队在探索数据时感到舒适。

如果你是研究负责人，如果团队很难提出好的问题，不要太沮丧。大多数组织仍然觉得最好是一群知道事情的人(或者至少说得好像他们知道)。他们喜欢说话清晰的团队。这种清晰仍被视为比不知道更有价值。可能要开几次会，人们才会愿意问好问题。在你开了几次问题会议后，你可能会发现，一群提出尖锐问题的人通常会获得更深刻的见解。

识别问题类型

如果你开了一个有效的问题会议，你可能会得到很多好问题。太好了。请记住，您希望您的团队在找到几个想要进一步探索的问题之前淘金并通过几十个问题。就像早期淘金的矿工一样，你希望能够从沙子中挑出金子。你会想知道如何把好问题从那些你可以留下的问题中分离出来。

一个好的方法是考虑不同的问题类型。每种类型都有自己的优势和挑战。如果你是研究负责人，你可以帮助团队确定哪种问题类型会带来最有趣的见解。两种最常见的问题类型是开放式和封闭式。这些问题中的每一个都可以是一个基本的或非基本的问题。有些问题类型比其他类型更容易区分。

你能识别的第一种类型是开放性问题。开放性问题没有固定答案。想想跑鞋网站。您的数据科学团队可以提出一个开放式问题，例如，“谁是我们的理想客户？”一个开放的问题通常需要更多的讨论。这些都是你试图认同对方推理的问题。例如，团队中的某个人可能会说，理想的客户是购买大量跑鞋的人。团队中的另一个人可能会质疑这种推理，认为理想的客户是鼓励其他人购买跑鞋的人，或者是博客写手，或者是创办了跑步俱乐部的跑步者。

一个开放性的问题通常没有答案。相反有人认为。谁的推理最好，谁就能解决问题。您的数据科学团队将希望寻找谁是理想客户的最有力论据，然后数据分析师将尝试用数据来支持这一论据。

封闭式问题通常更具决定性。一个封闭的问题可能是这样的，“我们的跑步者的平均年龄是多少？”这类问题通常会有一些讨论。你的团队可能要考虑平均年龄相对于平均年龄的优势。他们也可能想质疑信息的价值。从这个问题中你还能得到什么问题？

如果你是研究负责人，确保团队没有问太多任何一类问题。问太多开放式问题，会让大家花太多时间提问，没有足够时间整理数据。太多的封闭式问题会导致团队花太多时间问小的、更容易证明的问题，而没有着眼于全局。

一旦你确定了你的问题是开放式的还是封闭式的，你就会想弄清楚你的问题是否重要。一个基本问题旨在激发团队进行深入讨论。这些问题在大多数组织中通常很难问。它们可以是简单的问题，比如“为什么人们从我们这里买跑鞋？”它们也可以更复杂，比如，“人们为什么要跑？”

基本问题通常是开放的，必须进行辩论。不应该有一个正确的答案。也可以有一个封闭的本质问题。团队可能会问这样的问题，“我们是否应该停止印刷目录，只通过网站销售鞋子？”封闭的本质问题很少。

正如你可能已经猜到的，还有许多不同类型的无关紧要的问题。一个无关紧要的问题并不是一件坏事。在你开始问一些重要的问题之前，你可能要经历许多不重要的问题。一个好的策略是问许多封闭的、不重要的问题，作为一种建立想法和问更大的重要问题的方法。

假设你想问人为什么要跑。你的科学团队可能想在第一个冲刺阶段解决一些不重要的问题。我们的顾客属于跑步俱乐部吗？我们的大多数客户是长期跑步者还是刚刚开始跑步？他们家还有其他人跑步吗？这些问题可能有助于你为你的顾客为什么喜欢跑步建立一个案例。如果你的团队对人们为什么喜欢跑步有充分的理由，这将有助于你推销你的产品来满足这些需求。

如果你是团队的研究负责人，请留意这些不同的问题类型。他们会帮助你引导讨论，整理出你最有价值的问题。如果你知道不同的类型，你更有可能找到能让你获得最佳洞察力的黄金。

组织你的问题

如果你是侦探剧的粉丝，你可能看过犯罪墙，当侦探试图找出一个未解之谜的所有不同部分时使用。他或她把图片和笔记贴在墙上，试图把不同的部分联系起来。板子变成了一个视觉故事。这就是为什么你会经常看到侦探坐在地板上盯着黑板，试图从数据中的所有小谜团中拼凑出故事。

您的数据科学团队将面临类似的挑战。他们会试着讲一个故事，但他们只有拼图的一部分。您的团队可以使用相同的技术创建一个问题板—一个他们可以看到所有问题和数据的地方。这样他们可以讲述一个更大的故事。

正如在第十三章中提到的，创建一个问题板是展示想法并向你的团队和组织中的其他人征求问题的好方法。在黑板的最上面，你应该放一个简单的标识符，比如“问题板”或者“问一个问题”问题板是一种在一个地方交流和组织他们的清晰方式。

你的数据科学团队应该有几十甚至几百个不同的问题。问题板很可能是团队的一个关键会议点，也是团队成员和风险承担者讨论项目的一个好地方。

首先，将你的问题板放在团队成员的桌子旁边或走廊上。开放空间不适合做问题板。你会希望人们站在黑板旁边读问题。另一个建议是把广告牌放在人流量大的地方。理想的地方是靠近饮水机、小吃店或浴室。它应该是一个几个团队成员可以见面并且不会分散其他人注意力的地方。

通常，整理你的白板的最好方法是使用不同颜色的便利贴。你需要从上到下组织你的董事会。黑板上方的便笺包含了你的基本问题。对于这些问题，使用红色或粉红色的便利贴。在它们下面，你可以用黄色便利贴来写不重要的问题。请记住，这些问题是针对小问题的。它们通常是有正确答案的封闭式问题。最后，你可以使用白色或紫色的便利贴。这些是研究小组发现的可能有助于解决问题的小数据点。

拥有问题板有五大好处:

它为团队提供了一个共享空间，有助于他们的小组讨论。
它显示了问题是如何相互联系的。
它帮助你按类型组织你的问题。
它帮助你讲述一个故事。问题板显示了团队可能难以解决的更大的问题。
它给组织中的其他人一个参与的地方。你希望团队之外的人添加他们自己的问题，并看到你的进步。

请记住，您希望您的团队进行深入的讨论。每个人都应该能够质疑对方的推理。团队应该倾听彼此的问题，并尝试提出自己的问题。他们应该专注于学习，而不是判断他们问题的质量。

问题板有助于这一点，因为它为人们提供了一个集中讨论的地方。这也有助于团队站起来，亲自参与并提出新的想法。

你的许多问题将是相互关联的。通常，你会有一些重要的问题与几个封闭的、不重要的问题联系在一起。如果是在墙上，可以用细绳展示这些联系。如果是在白板上，你可以画不同颜色的线。这将有助于你的团队保持有组织性，甚至优先考虑他们最有价值的问题。

如第十三章所述，问题板将邀请团队以外的其他人参与。你可能想在黑板旁边放一叠绿色的便利贴。留下标记和小纸条，邀请其他人添加他们自己的问题。有时候这些来自团队之外的问题讲述了最有趣的故事。

创建问题树

您的问题板将是传达您的数据科学故事的关键部分。它应该包括你的团队正在努力解决的问题。它也可能有一些数据提示一些答案。一个好的问题板鼓励组织的其他成员参与进来，并吸引人们成为你分享故事的一部分。

问题板的挑战之一是保持它的良好组织。因为它是为小组讨论而设计的，所以您希望每个人都能够共享相同的信息。它不应该有几组不同的一个人的笔记。如果每个小组只有一个人的想法，那么这个人将是唯一理解其含义的人。

相反，你所有的问题都应该用同一个系统来组织。最好的方法之一是创建问题树。问题树是一组与一个基本问题相关的便笺。你会想用最引人注目的颜色来回答基本问题。通常这不是红色就是粉色。

让我们为跑鞋网站设想一个问题板。你的团队提出的一个问题是，“我们的网站能帮助鼓励不跑步的人成为跑步者吗？”如果你是团队的研究负责人，你应该把这个重要的问题写在黑板最上方的红色贴纸上。

在这个基本问题下面，你可以开始添加其他问题。这可能是另一个基本问题，比如“是什么让人们跑步？”也可以是一个无关紧要的问题，比如“非跑步者会在我们的网站上购物吗？”由于这是一个封闭问题，您可以在黄色问题“粘滞”旁边放一点“粘滞数据”。也许类似于，“数据显示，我们 65%的客户在一周内都没有跑步。”你可以使用如图 16-1 所示的饼状图来说明这一点。

图 16-1。

Pie chart that shows how many times per week respondents run

假设生成的数据来自该公司对其客户进行的调查。问题是，“你平均每周跑步几次？”当你看数据时，你会发现大约 65%的受访者根本不跑步。55%的受访者每周跑步一次或多次。参见如何在 http://ds.tips/S3eve 创建此图表。

查看问题树的人应该能够跟踪团队的思维过程。她应该看到下面的问题以一个开放式的基本问题开始(“我们的网站能帮助鼓励不跑步的人成为跑步者吗？”)并查看解决该问题的团队。她应该能一路追踪到不同的分支。

假设这个问题，“是什么让人们跑步？”向自己的方向分叉。在这个问题的下面是另一个问题，“他们跑步是为了减压吗？”下面是另一个问题，“压力大的不跑步的人能看到跑步的好处吗？”

有了问题树，研究主管现在就有了一份报告，向组织的其他人展示进展情况。她可以展示数据科学团队正在同时处理几个高价值的问题。不难看出，深入了解如何创造客户可能会增加收入。

问题树帮助研究主管将团队的工作与真正的商业价值联系起来。一个问题板应该有几个问题树。在黑板的最顶端，应该有几个红色或粉红色的基本问题。这些问题中的每一个都应该像一棵倒挂的树一样分支到其他几个问题中。如前所述，确保使用不同颜色的便笺条(重要问题用红色或粉色，不重要问题用黄色)。有时，开放式问题会分支成不同的问题树，您应该用显示数据的小便笺来结束封闭式问题。

和任何一棵树一样，你会想要修剪你的问题。这是研究主管的主要职责之一。她需要确保你的问题能带来真正的商业价值。如果她认为你的问题不会带来真知灼见，她可能想把它们从问题板上拿下来，这样数据分析师就不会开始搜索结果了。

Note

作为团队问题会议的一部分，研究负责人通常会删除问题。您不希望您的研究主管在没有与团队沟通变更的情况下，就将问题从白板上拿下来。

关于问题树的一个关键点是，它们实际上反映了大多数团队如何提出新问题。请记住，数据科学是使用科学的方法来探索您的数据，这意味着您的大部分数据科学将是经验性的。你的团队会问一些问题，收集数据，并通过问一系列问题对数据做出反应。当你使用问题树时，它反映了团队学到了什么。同时，它向组织的其他人展示你的进步。

发现新问题

有两种方法可以帮助你的团队找到更好的问题。其中之一是你组织中的某人在你的问题板上张贴了好问题。这些是你的“礼物问题”另一种方法是在与您的数据科学团队的定期会议中提出好的问题。

张贴在你的布告栏上的礼物问题很大程度上取决于你的组织。一些组织更具协作性。其他人更受控制。如果你的组织更加开放，你可能会被问题淹没，不得不优先考虑讨论。如果组织更谨慎，你可能几个星期看不到任何输入。

不管是哪种情况，填写问题板的最好方法就是让它看起来有吸引力。一个好方法是创建一个简单的询问问题的标志，例如“请向我们的数据科学团队提出任何问题。”另一种方法是将问题板整合到有趣的演示文稿中。

假设有人提出了这样一个问题，“怎样才能做出一双完美的跑鞋？”这是一个开放式的基本问题。如果你是研究负责人，你可以把这个问题复制到一个红色的便利贴上，然后把它放在你的问题树的顶端。在下一次演示中，请团队回答一些有趣的礼物问题，并讲述一个关于数据暗示的故事。他们想讲述一个关于完美跑鞋的故事。他们可能会谈论颜色、质量和风格的组合，并用简单的数据可视化来备份数据。接下来，让公司的其他人知道这个好故事是从哪里来的:张贴在公告板上的一个有趣的礼物问题。这种认可鼓励其他人参与。组织中的大多数人总是在寻找更好的参与方式。如果你能证明他们的问题很重要，你就能更容易地填满你的白板。

来自团队外部的问题是获得洞察力的好方法。这些问题通常简单明了，这通常使它们很难讨论。这些简单的问题往往最能质疑我们的假设。这就是为什么这些礼物问题可以让你的团队专注于商业价值。

可惜你的问题大多不是礼物。相反，它们是与您的数据科学团队的其他成员进行艰难讨论的结果。这些都是来之不易，难以创造的问题。

如果你是团队的研究负责人，尽你所能利用你的礼物问题。此外，与团队的其他成员一起努力工作，找出你将在第十七章中看到的六个关键领域中的问题。您的问题越多，您的团队就越有可能找到关键的见解，并将其与真正的商业价值联系起来。

摘要

在本章中，您学习了各种鼓励提问的方法以及如何召开问题会议。接下来，您了解了不同类型的问题，以及如何使用问题板和问题树有效地显示和组织这些问题。最后，你简要学习了如何发现新问题，这将在第十七章中详细介绍。

十七、寻找问题的地方

让团队提出好的问题通常不像创造合适的环境那么简单。即使是技术高超的数据科学团队也常常需要更多的指导。当您与您的团队会面时，您会希望将问题集中在六个关键领域。这些领域不是你能找到好问题的唯一地方，但它们通常是一个好的起点。这些问题是:

澄清关键术语
根除假设
查找错误
查看其他原因
揭露误导性的统计数据
突出显示缺少的数据

这六个领域都有自己的提问风格。当你问一些根除假设的问题时，它们与关于误导性统计的问题有很大不同。这些领域中的每一个都让团队走上了不同的道路，每一个都将在接下来的章节中详细讨论。

这六个方面旨在作为指南。不是所有的问题都会涵盖这六个方面。相反，你应该这样想:如果你讨论这六个方面，你肯定会提出至少几个问题。这些问题将成为推动您的数据科学团队的动力。在每个冲刺阶段，你的团队将努力解决或重新排列你的问题板上的问题。

澄清关键术语

乔治·卡林曾开玩笑说，他把一美元放进找零机，结果什么也没变。这让你想知道他希望什么样的改变。你永远不会知道，因为他用的词有几种不同的意思。不幸的是，英语中的许多单词都是如此。我们使用单词的上下文对它们的意思有很大的影响。这就是为什么查看关键词和短语是收集有趣问题的最佳方式之一。

数据科学讨论应该运用批判性思维。你需要仔细看对方的推理，然后质疑对方的推理，这样你才能更好的理解大家的想法。最好的方法之一是质疑关键术语和短语。

所以让我们回到跑鞋网站。假设数据科学团队中有人提出了一个有趣的问题:“人们经常跑步是因为这会让他们更快乐吗？”这是一个开放式的基本问题，这意味着可能不会有是或否的答案。相反，该团队将不得不提出有数据支持的有力论据。

数据科学团队应该质疑哪些关键术语和短语？想想那些可能有歧义或多重含义的词。这些词通常是抽象的，可以有多种解释。在这种情况下，有几个词你可能想探究一下:“经常”和“更快乐”

想想“经常”这个词。这个词对你来说意味着什么？意思通常取决于人。例如，我的妻子喜欢去餐馆。我们尽量每周至少去一次。如果你问我，我会说我们经常去餐馆。如果你问她，她会说我们从不去餐馆。

您的数据科学团队应该提问，以澄清“经常”一词的含义你可能想问一个封闭的问题，比如“我们的普通顾客每周跑几次？”然后把这个问题放在你的问题树上的前一个问题下面。

你也应该探索“更快乐”这个词。“更快乐”这个词对你来说意味着什么？你的顾客跑步是因为他们喜欢跑步吗？也许他们真的喜欢跑步，当他们跑步回家时，他们最开心。也许他们不喜欢跑步，但这是他们知道的唯一缓解压力的方法。从某种意义上说，他们更乐于跑步。

这是你可以进一步提问的另一个领域。你可以问一个宽泛的基本问题，比如“什么能让我们的客户快乐？”你也可以试着把快乐分成几部分。也许可以问这样一个问题，“我们的客户跑步是因为他们觉得他们必须跑步吗？”你甚至可以更具体地问:“我们的顾客在跑完步后最开心吗？”

现在你看到了询问关键短语和单词是如何快速产生更多问题的。请记住，在你的团队参加问题会议时，寻找答案是研究负责人的工作。仅仅因为你的数据科学团队问了这些问题，并不意味着他们有义务坚持到底。研究负责人是倾听这些问题并挑选出听起来最有趣的金块的人。

带着这个问题(人们经常跑步是因为跑步让他们更快乐吗？)，你现在有五六个其他可能更有趣的问题。您的团队正在询问可能与业务价值相关的基本开放式问题。

想想这个基本的、开放式的问题，“什么让我们的客户快乐？”这个问题可能看起来很简单，几乎微不足道，但是如果您的数据科学团队能够获得一些洞察力，这将会带来真正的商业价值。见解是您的数据科学团队将提供的金块。然而，许多数据科学团队并不追求这样的问题，因为他们觉得这些“关键术语”是显而易见的。请记住，对您来说显而易见的事情可能对其他人来说并不明显，所以请花时间问这些问题，这样您就可以让您的数据科学团队更有效率和洞察力。

根除假设

找到好问题的另一个方法是寻找隐藏的假设。人们一直在做隐藏的假设。假设没有错。事实上，你需要他们富有成效。你认为你的同事工作出色。一般来说，人们会认为你说的是实话。你不想为了完成某件事而事后批评每件事。

你需要注意的是那些可能导致盲点的假设。这些假设让你无法探索有趣的问题，并导致你的团队参与集体思维。在您的数据科学团队中尤其如此，这就是为什么获得新问题的最佳方式之一是查看潜在的假设。

一般来说，假设有四个特征:

它们通常是隐藏的或未声明的。很少有人以这样的话开始句子:“如果我们假设这是真的……”
它们通常被认为是理所当然的，或者被视为“常识”
它们对于决定你的推理或结论是必不可少的。你的推理甚至可能依赖于假设。
它们可能具有欺骗性。通常，有缺陷的推理被常识性的假设所掩盖。比如，“糖对你不好，所以人工甜味剂肯定对你有好处。”

我曾经为一个组织工作，该组织检查了它的客户服务数据，并意识到它有很高比例的人打电话订购产品。数据科学团队的任务是试图改变这种行为，因为维护呼叫中心的成本很高。该公司希望鼓励客户使用网站或手机应用程序。

研究负责人以问一些有趣的问题开始。为什么有人打电话进来？我们能做些什么来使我们的网站更容易被客户使用？我们如何让更多的客户使用我们的移动应用？为什么顾客更喜欢和一个人说话？

其中一些问题有潜在的假设。研究负责人认为，人们打电话进来是因为他们不喜欢这个网站，而且客户没有安装移动应用程序。这个推理可能对，也可能不对。重要的是不要假设他们是对的。如果团队从表面上接受这种推理，他们可能会错过发现关键见解的机会。在这种情况下，大多数打电话进来的人都是在工作网站上工作的专业人士，他们无法使用智能手机或访问网络。

团队可能寻找假设的另一个领域是当他们试图预测未来行为时。假设我们的跑鞋网站想要使用预测分析来确定哪双鞋最成功。也许他们发现非常鲜艳的鞋子在过去做得很好。他们创建了一个模型，预测一双色彩鲜艳的鞋子会更成功，如图 17-1 所示。

图 17-1。

How customers decide which shoe to buy

您创建的调查包含以下变量:

1.一周跑几次？

2.鞋子有很酷的特点吗？

3.鞋子有很多颜色吗？

4.被告是否购买了鞋子？

第四个特征用作决策树预测的因变量。参见如何在 http://ds.tips/fuJE3 创建此图表。

解决这一假设的一个好方法是尝试首先确定推理。在这里，理由是彩色跑鞋在过去做得很好。一旦你有了这个推理，你就可以开始考虑假设了。

其中一个假设是，跑鞋之所以成功，是因为它色彩鲜艳。记住相关性并不一定意味着因果关系。可能高质量的厂商一直在努力让自己的鞋子颜色更鲜艳，也就是说跑者买的是高质量的鞋子，只是碰巧颜色鲜艳而已。这些假设中的一些可以通过几个小心的问题来强调。一些简单的问题，比如，“顾客买跑鞋是因为它们色彩鲜艳还是其他什么原因？”

重要的是要记住，假设没有好坏之分。搞清楚他们都是对是错，并不坏，甚至很关键。关键是要集中精力确定他们在哪里。一个被接受为事实的假设可能会引起连锁反应，导致错误的推理。还要记住，假设并不总是需要纠正的错误。这更像是一条探索之路。

假设面临的主要挑战是，如果你不把它们公之于众，它们就会堆积起来。在你意识到这一点之前，你的团队可能已经在研究一堆薄弱的假设了。当这种情况发生时，很难有有趣的发现。

查找错误

数据中的错误不一定会引起最大的麻烦。在数据科学团队中，更大的问题是团队推理中的错误。数据中的一个错误可能是一个挫折或产生一系列虚假报告。另一方面，推理中的错误可能会将团队引向完全不同的方向。整个团队可能会花几周甚至几个月的时间在错误的地方寻找，让团队问不出有趣的问题。

你已经看到了收集好问题就像淘金一样。在进入有趣的话题之前，你可以先思考几个糟糕的问题。你可能需要澄清一些关键的短语和语言。还有一些假设可能把不正确的推理粘在看似正确的结论上。一旦你剥开这些假设，理清语言，你就只剩下简单的推理了。从很多方面来说，你在问一个更难的问题，“这个推理正确吗？”

总的来说，当你质疑别人的推理时，有七种危险你要小心:

人身攻击:在你的数据科学团队中，如果有人说“你不理解数据”，你可能会看到这种情况这可能是真的，但这不是一个建设性的方式来驳回别人的问题。
问题驳回:你不想驳回一个有趣的问题，因为它可能会导致不舒服的问题。您不希望您的数据科学团队说类似“问这个问题的组织政治是什么？”
快速共识:这有时被称为广告大众推理。它与群体思维密切相关，并基于一个有缺陷的推理，即如果每个人都很快同意，他们就一定是对的。
依赖可疑权威的推理:你有时会在经典案例中看到这种情况，“我在互联网上看到了这个图表，所以它肯定是正确的。”
循环的，或巧妙的推理:有时你会在数据科学团队中看到这种情况。你会听到这样的话，“我们是一家数据驱动的公司，所以我们的数据必须是正确的。”
稻草人推理:这是指你故意歪曲别人的理由，以此来让自己的理由看起来正确。你经常可以识别这一点，因为有人会叫出某人的名字。类似这样的话，“如果你接受了比尔关于数据很糟糕的说法，我们就得从头开始。”
错误的二分法:这有时会对好问题产生寒蝉效应。它基于只有两种可能结果的想法。你可能会听到这样的话，“如果数据是正确的，那就意味着我们都错了。”

将这七种危险视为保持你的问题会议富有成效的指南。这些都可能导致你的团队出现软推理和浅问题。

我曾经与一个数据科学团队合作开发一个州教育部测试应用程序。他们想看看是否可以使用预测分析来确定哪些学生可能需要额外的帮助。该团队有万亿字节的测试信息，但他们很难创建一个工作模型。

在提问会上，一名团队成员问道:“这些测试在评估学生的知识方面做得好吗？”另一个人回答说，“这些是国家标准，我们不是教育者，所以我们应该接受这些数据是正确的。此外，如果它不正确，你就不能使用任何数据。”

这些声明很快结束了讨论。如果团队探索了这些问题，情况会好得多。相反，他们依赖于危险的推理。国家标准可能来自可疑的权威。这种针对个人的攻击假设房间里没有人知道足够的信息来提问。最后，有一个错误的二分法，即数据要么全是好的，要么全是坏的。

在你的团队的问题会议上要小心这些危险。拥有所有的答案并不重要。重要的是识别软推理。你不希望软推理代替有趣的问题。

质疑证据

正如我们在本书中提到的，找到有趣问题的最好方法之一是寻找假设。我们也研究了错误推理的危险。当你在寻找好问题时，推理中的错误会产生寒蝉效应。一旦发现推理中的错误，您的数据科学团队就可以考虑对可能被认为理所当然的事实提出关键问题。

许多组织依赖广为接受的事实作为日常工作的一部分。当您与您的数据科学团队合作时，这些事实将成为背景。关键是在问有趣的问题时，要确保事实不是禁区。事实上，您的数据科学团队可能是组织中唯一对质疑既定事实感兴趣的团队之一。

当你在数据科学团队时，每次遇到事实，你应该从三个问题开始:

我们应该相信吗？
有证据支持吗？证据是公认的数据，可以用来证明一些更大的事实。如果有证据，你应该问第三个问题。
证据有多充分，是否支持事实？

你不应该认为证据是证明或否定事实。相反，试着把它想成是有力或无力的证据。有强有力的证据表明吃太多的糖对你的健康有害。没有足够的证据表明蜂蜜比糖更健康。当你看证据时，你所做的只是决定你是否可以依赖事实。在这种特殊情况下，你可能要减少糖的摄入量。你不想用蜂蜜代替你的糖罐。

当你在数据科学团队工作时，你会看到各种公认的事实。他们中的每一个都可能有不同的证据来源，这都能引出有趣的问题。一些最常见的证据是直觉、个人经历、例子、专家意见、类比甚至研究。

当你看到一个有证据支持的事实时，不要试图把它看作一个停止信号。相反，把事实看做一个可能有一段时间没有被探索过的布满灰尘的走廊。可能会有新的东西来支持你的既定事实。你也可能会发现根本没有证据，事实只是一个未经验证的假设。

我曾经在一家公司工作，该公司有一个数据科学团队在处理一组信用卡交易。该公司的人员将信用卡数据视为向银行客户提供促销的一种方式。他们对顾客的信用卡购买了解得越多，他们就越有针对性地进行促销。

数据科学团队与业务部门的某人合作，试图改进该模型。该团队开始对某个品牌的信用卡进行新的促销活动。业务部门的利益相关者说，他们不应该使用那种特定类型的信用卡来进行实验，因为使用那种信用卡的大多数客户只在大额购买时使用它。数据科学团队问这个人是怎么知道这个事实的。利益相关者说她已经“这样做了很多年”，这是她的直觉。

会后，数据科学团队决定测试经理的直觉。他们在问题板上创造了新的问题。其中一个问题是，“顾客只在大额购物时使用这种信用卡吗？”事实证明，经理是对的。有非常有力的证据表明，该品牌的信用卡主要用于大额购买，如图 17-2 所示。数据科学团队以更有力的证据支持了经理的直觉，并以交易历史和购买价格为依据。

图 17-2。

Total spend by payment meathod

如果您查看每个交易值时段的计数，随着总金额变高，更多的交易是通过信用卡支付的；第二类是现金。参见如何在 http://ds.tips/br5wR 创建此图表。

当你参加问题会议时，你也想评估来自其他团队成员的证据。直觉没有错。通常，直觉可能是伟大发现的开始。然而，并不是团队中的每个人都有相同的直觉。对于每个团队成员在数据中看到的内容，可能会有一些分歧。当这种情况发生时，一起努力看看彼此的证据。询问为什么一个人的直觉可能比另一个人的更准确。也许他们有更多的经验，或者在过去从事过类似的项目。

请记住，事实并不总是刻在大理石上的。事实会随着证据变强或变弱而改变。当你在数据科学团队工作时，不要害怕质疑证据。通常，它会成为新见解的来源。

看到对立的原因

很容易说相关性并不意味着因果关系。在实践中并不总是容易看到。通常，你会看到因果关系，没有理由去质疑它们之间的联系。有时很难看出事情发生后的结果和因为事情而发生的结果是不同的。你会在工作和生活中看到这一点。

我和妻子决定，我们不想为我们的房子买一台游戏机。相反，我们和儿子达成了妥协。我们让祖父母在他们的房子里有一个视频控制台。这样，每次我们去看他的时候，我们的儿子都可以看到爷爷奶奶，玩他的新游戏。每次我们去看他，我们都会给儿子买一个新游戏。它会在我们离开前寄到。我们的儿子相信我们买了一个新游戏，然后马上飞到奶奶家让他玩。这是非常清楚的因果关系。

视频游戏的出现实际上是一个对立的原因。比赛到了，我们收拾行李。不过，这不是真正的原因。真正的原因是我们有去看奶奶的票，所以我们买了一个新游戏。

这些对立的原因并不总是容易被发现。有三样东西需要寻找:

原因是否真的有意义:有许多对立的原因。进口柠檬和交通事故的减少是有联系的。冰淇淋和鲨鱼袭击之间也有联系。尽管如此，这些联系没有任何意义。柠檬不会让人成为更好的司机，鲨鱼也不吃冰淇淋。你的大部分竞争原因不会那么明显。一定要检查因果关系的证据。
原因是否与其他影响一致:你可能会发现买跑鞋和天气变暖之间的联系。这意味着如果你发现跑步短裤和温暖天气之间的联系，它可能是一个实际的原因。几个一致的原因使你更有可能在寻找一个真正的原因。
这一事件是否可以用其他对立的原因来解释:也许跑鞋的购买在温暖的天气里会增加，因为它们在夏天比较便宜。如果你能想出其他几个对立的原因，很可能你没有看到真正的原因。

当你在一个数据科学团队工作时，要时刻注意竞争对手。

我曾经为一个州教育部的数据科学团队工作过。该团队正在创建一个应用程序来更好地理解学生评估数据。数据显示，当学生使用软件程序进行评估(而不是书面评估)时，他们获得了更好的分数，如图 17-3 所示。这使得软件看起来非常有效。仅仅是使用计算机进行测试的行为就提高了学生的知识水平。

图 17-3。

Grade distribution, software vs. no software

从总体分布来看，大多数学生得了 B，很少学生得了 A。然而，在没有软件的情况下，几乎有 50%的学生获得 C 或 D，而对于获得 B 尤其是 A 的学生来说，更多的学生使用了软件。参见如何在 http://ds.tips/fRa5r 创建此图表。

这是一个伟大的软件营销。如果你使用它，它会增加你的分数。实际上，这没有多大意义。数据科学团队并不只是盲目接受这种因果关系。为什么从纸质考试转向在线考试会增加学生的学习？为什么他们的进步没有随着他们继续使用软件而增加？这一数据具有竞争原因的特征。

在一次提问会上，研究负责人提出了这个问题。她问了这个问题，“为什么我们的学生取得了更高的分数？”数据科学团队试图通过想象对立的原因来打破这个问题。他们问了几个有趣的问题。“当他们开始使用该软件时，还发生了哪些变化？”以及“有没有学生没有这种进步？”

事实证明，考试成绩的跃升有一个对立的原因，而且有更有力的证据证明真正的原因。事实证明，许多使用这种软件的学校都得到了州政府的拨款来改善他们的硬件。每个教室都得到了一打新电脑，作为鼓励学校使用新软件的一种方式。这些电脑让学生更频繁地参加考试，他们对问题变得更熟悉，他们的考试成绩也提高了。

当你在数据科学团队工作时，不要害怕质疑因果之间的联系。团队应该准备好创造对立的原因来解释某些事件。如果它们有意义，你应该调查一下它们之间的联系。你的一些最好的问题可能来自于排除这些对立的原因并找到一个真正的原因。

揭露误导性的统计数据

你可能会发现很多问题的一个领域是在看统计数据的时候。如你所见，统计数据不能代替事实。统计数据可能会说谎。事实上，很多统计数据都是骗人的。至少，他们说出了自己的真相。

当你在一个问题会议上，你的团队应该仔细评估统计数据。他们应该互相质疑，对团队之外的统计数据持怀疑态度。

在第四章中，你看到了计算平均值的挑战(政客的例子)。统计平均值可能给你一个答案，中位数可能给你一个不同的答案。通常，人们更喜欢其中的一个，这取决于他们想看什么。然而，还有许多其他的方式，你可以用统计数据撒谎。其中一些更难以捉摸。你必须仔细听才能注意到手法的巧妙。

其中之一是推断统计。当你用一个故事建立一个统计上的联系，然后你把这个联系和另一个故事联系起来。例如，假设一项研究表明，20%的时间里，人们一边开车一边发短信，如图 17-4 所示。一家试图销售汽车保险的公司可能会推出一则广告，上面写着:“五分之一的人在开车时发短信。确保你有好的保险。”

图 17-4。

Things people doing while they text

根据这项研究，几乎 20%的时间，人们在开车时发短信。发短信时第二高的活动是走路。参见如何在 http://ds.tips/f2asP 创建此图表。

注意手法的变化。一项统计数据讲述了一个关于短信的故事:大约 20%的时间，人们在发短信和开车。保险故事是关于一群人的。大约 20%的人在做一些事情。也许很少有司机发短信，但他们经常发短信，这会影响数据。你可能会在开车的时候发 20%的短信，但这并不意味着 20%的人边开车边发短信。一个普通人一天中可能有 5%的时间在吸烟。这并不意味着 5%的人吸烟。保险公司试图告诉我们的故事是关于安全的。它试图给人一种印象，即每个人都因发短信而分心。这些短信让驾驶变得更加危险。

让我们回到我们的跑鞋网站。想象一下，数据科学团队中的某个人强烈感觉到数据显示人们正在和朋友一起跑步，这支持创建一个新的推广。数据分析师制作了一份统计数据，显示 50%的客户将优惠券转发给他们的朋友，并勾选了将他们视为朋友的复选框。他建议多达一半的顾客和他们的朋友一起跑步。他认为，数据科学团队应该探索一个具有更多社交互动的网站是否能促进销售。乍一看，这听起来很有道理。这里真正发生的是，你团队中的这个人试图创建统计推断。

解决这个问题的最好方法是把统计数据和故事分开。对于一个跑鞋网站，你有两个故事:一个说顾客喜欢他们的朋友省钱，另一个说顾客和他们的朋友一起跑步。当你把它们看作两个独立的故事时，就更容易看出可能存在脱节。你可能想问你团队中的人几个问题。省钱和和朋友一起跑步有什么联系？有哪些统计数据可以显示有多少顾客和朋友一起跑步？这里有什么联系吗？

统计推断是提出有趣问题的一个很好的工具。只有当团队认为它们是事实时，它们才是危险的。它们可能是一些有趣的东西的影子，但它们不应该被当作证据。

您可能会看到误导性统计数据的另一个领域是当存在可疑的遗漏时。一个地方你可能会看到这是与规模的措施。想象一下，你的数据科学团队中的某个人使用了这样的统计数据:一次促销活动增加了 5000 个订单的鞋子销量，如图 17-5 所示。这听起来可能令人印象深刻。唯一缺少的是尺度的测量。你需要问一个关键问题。该网站通常每月有多少订单？如果是 50，000，这是一个很好的论据，证明你有一次成功的晋升。如果是 500 万，可能影响不大。

图 17-5。

Comparing 5,000 surge on a base of 50,000 versus 5,000,000

在上面的图表中，你几乎注意不到 500 万基数的激增。同样，如果你看看下面图表中的百分比变化，在 500 万的基础上增加 5000 几乎是不明显的。参见如何在 http://ds.tips/tRab2 创建此图表。

你也会看到百分比。也许团队中有人说红鞋销量上升了 500%，如图 17-6 所示。这是相当令人印象深刻的，当然，除非她从销售两个订单的红色鞋子到十二个。

图 17-6。

Red shoe sales went up by 500%

促销后，红色鞋子的销量可能会增加 500%；然而，你应该假设总销售额是每天 1000，这只是 1%的增长。参见如何在 http://ds.tips/5ugEc 创建此图表。

当你在数据科学团队工作时，注意不要把统计数据当成事实。有几种常见的方法可以让统计数据看起来像在讲述一个有趣的故事。你的团队需要提出关键问题，然后提出一些更有趣的问题，以获得更好的见解。

突出显示丢失的数据

问好问题的最好方法之一是检查缺失的信息。一点点缺失的信息可以极大地改变故事。有时数据不完整。其他时候，这个人故意省略信息，因为它讲述了一个不同的故事。你在广告中经常看到这种情况。

拿一个很普通的广告来说。你可能听说过一个流行的说法，五分之四的牙医向嚼口香糖的病人推荐无糖口香糖。这似乎是一种非常强烈的支持。然而有一点信息丢失了。一个恰当的问题可以改变整个故事。关于口香糖，牙医一般会告诉他们的病人什么？也许 100%的牙医告诉他们的病人永远不要嚼口香糖。在这些患者中，可能有 10%的人坚持说他们无法放弃这个习惯。

因此，对于这 10%，大多数牙医说，如果你坚持嚼口香糖，确保它是无糖的。如你所见，这是一个完全不同的故事。没有广告商会说，“100%的牙医说不要嚼口香糖，但是对于那些嚼口香糖的人来说，试试无糖的。”

在您的数据科学团队中，您将经常寻找缺失的信息。你会希望留意重要的信息，这意味着它将重塑你的推理。你可以随时询问更多的信息。真正的问题是缺少什么信息来重塑这个故事。你甚至可能会以讲述一个与原著大相径庭的故事而告终。

我曾经为一个组织工作，该组织试图找出为什么参与医学研究的男性多于女性。他们从实验室得到一份报告，称男性参与医学研究的可能性增加了 60%，如图 17-7 所示。数据科学团队的任务是试图找出为什么会出现这种情况。当数据科学团队查看这份报告时，他们问道:“我们遗漏了哪些重要信息？”有几条信息可能会有所帮助。他们还问，“他们有 60%的可能性参与其中，这意味着什么？”这是否意味着同等数量的男性和女性申请，但更多的男性接受了这项研究？也许接受的男性和女性人数相等，但实际上有更多的男性参与。

图 17-7。

Test takers and non-test takers—male and female

你可以用两种方式转动桌子。左边是男性和女性。大约 80%的男性是考生，而女性只有 30%。右边是考生和非考生。60%的考生是男性，而只有 15%的非考生是男性。参见如何在 http://ds.tips/6Wewr 创建此图表。

了解这些信息将会讲述一个完全不同的故事。其中一个讲述了更多男人被接受的故事。另一个故事讲述了更多的男人出现。

当你寻找丢失的信息时，你可以尝试一些方法。你应该做的第一件事是试图理解信息可能丢失的原因。也许有空间或时间的限制。给你信息的人可能不太了解这个话题。也许这个人有美化信息的动机。如果是这种情况，你可能会多花一点力气去寻找丢失的信息。

另一件你应该注意的事情是当这些数字被比较形容词包围时——比如快 60%、大 20%或瘦 30%。通常，这些短语有重要的遗漏信息，从中你可以引出一些有趣的后续问题，比如比什么更快、更好、更瘦？

最后，一个很好的方法来看看你是否有遗漏的信息，那就是试着采取消极的观点。为什么参与医学研究的男性比女性多很重要？让更多的女性参与进来有好处吗？

事实证明，这最后一个问题帮助团队找到了缺失的信息。让更多女性参与的好处是年轻女性更有可能服用处方药，这使得研究更加全面。他们可以测试更多的药物相互作用。

这个好处是问题的另一面。女性更难参与，因为她们可能服用了研究中不允许的处方。更好的表述这个统计数据的方式应该是，“60%被允许参与医学研究的人是男性。”这讲述了一个完全不同的故事。

当你在一个数据科学团队工作时，试着总是努力寻找丢失的信息。这些重要的信息可能包含数据告诉你的真实故事。

摘要

在本章中，您了解了在与数据科学团队会面时应关注的六个关键领域。您需要关注具有以下特点的问题:

澄清关键术语
根除假设
查找错误
查看其他原因
揭露误导性的统计数据
突出显示缺少的数据

您了解到，并非所有的问题都会涵盖这六个方面，但如果您关注这些方面，您的团队肯定会提出至少几个问题。在第十八章中，你将学习如何避免当你试图问一些很棒的问题时可能出现的陷阱。

Footnotes 1

乔治·卡林，《大脑排泄物》(美国:亥伯龙出版社，1998 年)。

十八、避免提出好问题时的陷阱

在避免陷阱这一章中，我将帮助你发现你在提问时可能遇到问题的四个原因，以及如何克服它们。

克服问题偏见

问题是从数据中获得洞察力的核心。你已经看到了很多帮助你的团队提出更好问题的技巧。除非你能坦然面对提问，否则这些技巧不会很有帮助。有许多不同的原因会让你在提问时遇到困难。以下是数据科学团队常见的四个原因:

自我保护
时间不够
经验不足
企业文化不鼓励质疑

在接下来的几节中，您将会更详细地看到这些。

自我保护

第一个原因是团队成员有保护自己的天然欲望。没有人想看起来是错误的或无知的。如果你和其他专业人士在一个小组里，质疑其他人的答案尤其困难。问一个好问题需要勇气。这会让你变得脆弱，尤其是如果你在一个非常看重答案的组织工作。

问好问题需要练习。如果你擅长这个，你会发现很多看似有答案的人实际上很容易受到质疑。这对你和团队的其他成员都有帮助。如果你不能解决简单的问题，你可能没有一个很好的答案。

时间不够

第二个常见的原因是团队没有足够的时间。如你所见，提问会让人精疲力尽。当你刚开始的时候，似乎每个问题会议都变得更长更复杂。当你没有时间问有趣的问题时，团队会干脆不再问，这就很难找到任何新的见解。

很多数据科学团队都陷入了这个陷阱。他们太专注于清理数据，以至于没有时间问有趣的问题。通常，组织的其他部分会强化这一点。做实事被看做是实实在在的工作。许多组织更喜欢忙碌的团队，而不是高效的团队。当这种情况发生时，每个人都非常专注于划船，没有人会花时间去问你的船要去哪里。

请记住，最干净的数据集是没有奖励的。不提供见解的数据科学团队将很难创造商业价值。

经验不足

第三个常见原因是团队没有足够的经验来提出好的问题。当团队成员来自工程、软件开发或项目管理时，这是很常见的。这些团队成员可能在整个职业生涯中都在努力成为一个知道答案的人。抑制这些本能并专注于提问可能很难。来自科学或学术界的团队成员可能会更容易完成转变。这就是为什么有一个好的组合可能更容易。

当团队刚开始时，他们倾向于问很多引导性的问题。这些问题包含了一个版本的答案。一个引导性的问题可能是这样的，“我看到更多的女性在我们的网站上购买跑鞋。你认为这是因为我们有更多女性顾客吗？”

这类问题并不能真正引发讨论。通常唯一的选择就是对方同意或者不同意。一个更好的问题应该是这样的，“为什么女性在我们的网站上购买更多的鞋子？”一旦团队的其他成员开始讨论，你就可以发表意见了。

企业文化不鼓励质疑

第四个常见原因是，数据科学团队存在于不鼓励质疑的企业文化中。社会科学家丹尼尔·扬科维奇 ¹ 指出，大多数美国组织创造了一种行动文化。当这些组织面临一个问题时，他们的第一反应是冲进去创造一个解决方案。他们不希望任何人坐在那里问问题。所有人都在甲板上。

这种类型的反应在许多组织中运作良好。例如，如果你在客户服务或零售部门工作，你可能只关注眼前的解决办法。在数据科学中，这种类型的思维会产生问题。这将阻止团队学习任何新的东西。

数据科学团队不想听到的一件事是完成一些实际工作的巨大推动力。您不希望涉众说这样的话，“一旦您将所有数据上传到集群，您就可以提问了。”这表明他们仍然认为你的团队在完成一个项目，而不是在寻找关键的见解。

当你在数据科学团队工作时，要注意个人和组织对问题的偏见。提问是发现的第一步。如果你跳过这一步，你的团队将很难学到任何新东西。

摘要

在这一章中，你学习了提问时可能遇到问题的四个原因，以及如何克服它们。总之，本章详细介绍的四个原因如下:

自我保护
时间不够
经验不足
企业文化不鼓励质疑

在第五部分，你将学习讲故事的基本方面，从在第十九章定义一个故事开始。

Footnotes 1

丹尼尔·扬凯洛维奇，《对话的魔力:将冲突转化为合作》(西蒙和舒斯特出版社，2001 年)。

十九、定义一个故事

我的一位同事最近买了一台新的摄像机，并制作了一部关于他墨西哥之旅的短片。他有让视频看起来很壮观的软件。片头的演职员表看起来就像你在电影院看的电影。他有音乐、画外音，甚至还有一些特效。

我们坐在一起，看了他那部 15 分钟的电影。大约五分钟后，我想起了讲故事和看视频的区别。他没有努力让我加入他的旅行。这只是一个美丽地方的精彩镜头。我一点也不理解他的经历。15 分钟过得相当慢。结束两分钟后，我无法告诉你我刚刚看到了什么。

许多数据科学团队以同样的方式思考讲故事。如果你只是有美丽的视觉效果，那么故事会自己告诉自己。如果我放一个易于阅读的图表，那么观众就会理解其中的含义。在现实中，就像墨西哥的视频一样，制造美丽的东西并不会让它变得有趣。美丽可以增强体验，但它不能取代故事。

许多数据可视化材料关注于创建图表的技巧。数据科学团队需要记住，数据可视化和讲故事不是一回事。事实上，它们非常不同。一个漂亮的数据可视化就像一个精心设计的电影布景。它可能是背景的舞台，但它不会给你任何意义。这就是为什么你不看两个小时的美丽电影场景的视频。

什么构成了一个故事并不是一件容易定义的事情。有结构性的定义。它们展示了人物、斗争和达到一个重要目标的过程。希腊哲学家亚里士多德列出了故事的六个重要元素。这些包括情节、神话和奇观。 ¹

这些定义是一个很好的起点，但是它们只是给你一个故事元素的感觉。它们可能无法帮助你的团队与观众建立联系。这有点像试图通过专注于画笔和凿子来学习雕塑。相反，你应该把你的故事当作一种建立联系的方式。

对于您的数据科学团队来说，试着将一个故事想象成一种使用语言和视觉来帮助观众理解故事并将故事与更大的意义联系起来的方式。

这是你在讲故事时需要考虑的第一件事:你如何建立联系？你将如何帮助你的观众找到更大的意义？

这个定义需要记住一些事情。首先，你使用语言和视觉来建立联系。你所说的和你所展示的本身并不是故事。事实上，视觉效果经常会出现在你和你的观众之间。

想想你见过的最好的演示。你会说，“我真的不明白他们说了什么，但是图表太壮观了？”更有可能你说的是相反的。你可能会想起被误解的孩子，或者劳累过度的父母。十几张幻灯片可能已经淡出了你遥远的记忆。

定义的第二部分是“帮助”观众。记住，好的故事是为了观众的利益。没有什么比看一个数据科学团队谈论他们的成就更无聊的了。你在讲一个故事来帮助观众与材料联系起来。你所说的一切都应该是为了他们的利益。这意味着你不应该谈论过程或分享功劳。开始帮助你的观众。

最后，请记住，这一切都是为了建立一种联系，以帮助您的观众找到一些意义。当你做得很好的时候，观众会发现你试图传达的一些意思。也许他们只找到了部分意义。这可能是他们发现最紧密联系的部分。这很好，你可以用它来构建你的下一个故事。

重要的是要看到，你的演示文稿的美感和制作价值并不等同于一个好故事。如果我朋友少花点时间在特效上，多花点时间建立联系，我会从他的视频中获得更多。墨西哥是一个美丽的国家，有着丰富多彩的历史和精彩的故事。如果他只是从那里开始，那么我会觉得我们有共同的经历。我会分享他此行的更大意义，而不仅仅是看视觉效果。

现在你已经知道了一个故事的大致定义，你如何讲一个好故事并让你的观众参与进来呢？你将在本章中找到答案。

纺纱

当你做演讲时，有很多方法可以让你的听众分心，让他们参与进来并集中注意力是一个挑战。你的头上可能有一个钟，所以你的观众一直在看时间。现在，许多会议室都有玻璃门和玻璃墙，这会让你的听众被会议室外面的人分散注意力。试图在现代办公室里讲故事不是一件容易的事情。当人们在房间里时，你需要额外努力，专注于吸引他们。当你开始讲故事的时候，你想立刻开始编故事。

Spinning a Yarn

这是 19 世纪水手们在讲述一个好故事时使用的术语。当水手的一部分就是知道如何编绳。每根线都需要拧成一团，编织成一个强有力的故事。

当你的团队试图编织一个好的故事时，有五条关键线索可以关注:

激发你的观众的好奇心。
试着用类比或分享的经历与你的听众联系起来。
尽量不要用“我”或“我”这样的词。相反，使用“你”或“你的”你想把焦点放在观众身上。
问一些有趣的问题。
不要太认真。如果你风趣或者平易近人，你的听众会更容易接受你的想法。

下面几节将更详细地介绍其中的每一项。

激发好奇心

所以先从激发你观众的好奇心开始吧。想象你正在参加一个典型的会议。演示幻灯片上写着，“第四季度销售预测。”所以你知道在第三季度末有一个非常强劲的上升趋势。

想象一下同一个会议，但是幻灯片只显示了演示者的姓名。会议开始，演讲者介绍了自己。她开始说，最近几个月的销售额一直在上升，但数据科学团队不知道为什么。观众可能会问自己，为什么数据科学团队不知道为什么销售额会增加，并想知道这个故事会如何发展。换句话说，观众很好奇。他们想看演示者如何将开放式问题和答案编织在一起。如果你让你的听众保持好奇，他们会耐心听你讲述你的故事。

与你的听众联系起来并使用“你”

你可以尝试的另一条“线索”是分享一段可感兴趣的经历。当你讲述你的故事时，听众需要和你这个人产生共鸣。你不希望他们认为你是团队成员或部门代表。你希望他们想知道你，作为一个人，要说些什么。这将有助于他们将你所说的与他们作为观众已经相信的联系起来。

即使你作为数据科学家的工作是谈论数字，也不要从谈论数字开始。而是说一段经历。例如，“当我第一次看到这些数据时，它让我想起了人们在排长队时的感受。”然后继续描述排长队的问题，以及你可能如何失去顾客。

当你向你的听众讲述你的经历时，不要过度。请记住，您要尽量减少使用“我”和“我”这样的术语你在分享你的经历来帮助你的听众找到意义。你不只是告诉他们你自己。你以自己为例，说明他们可能会如何处理数据。

问有趣的问题

您可能还想分享您的数据科学团队的一些问题。通过这本书，你已经学会了如何问有趣的问题。你可以用同样的问题来激发听众的好奇心。如果你的团队觉得这些问题很有趣，那么你的观众也很有可能会觉得这些问题很有趣。把问题和经历交织在一起。让他们觉得他们正在和你一起寻找答案。一个好的问题会让你的听众渴望得到答案。

保持清淡

最后，记得不要太认真。当你的观众认为你过得很开心时，他们自然会被你的故事吸引。这再次激发了他们的好奇心。他们可能想知道为什么你看起来这么开心。别傻了；那会损害你的信誉。相反，试着创造一种轻松的体验。你甚至可以在你的团队提出问题的方式中加入一些幽默。听众希望你能帮助他们理解你所说的话的整体含义。让他们知道这是一个有趣的旅程，他们更有可能加入。

这五根线将帮助你编织一个强有力的故事。这些线索中的每一条都会增加你讲故事的整体力量。你也许不能全部使用它们，但是试着记住它们是如何交织在一起，让观众参与进来并寻找意义的。

编故事

既然你已经探索了你用来编织故事的五条不同的线，让我们来看一个更大的主题，看看你可以用来吸引听众的不同类型的叙述。

叙事几乎就是你可能会说的任何东西。电视广告是一种叙事。我说我等了很久才买到电影票也是一种叙事。并不是所有的叙述都是故事，记住故事可以帮助观众理解更大的意义。我等了很长时间才买到电影票，这并没有更大的意义。我没有努力寻找真相。我只是想看新的星球大战。

你可以使用不同类型的叙述来帮助你的观众过渡到你更大的故事。当您试图向观众解释数据科学概念时，有五种类型的叙述特别有帮助:

轶事
个案研究
例子
情节
小插图

在下面几节中，您可以找到更多关于这些内容的信息。

轶事

先说趣闻。轶事是对与你的大主题相关的事情的简短的个人描述。这里的关键词简短且相关。你希望你的轶事足够长，有趣，但又足够短，不会分散你对大故事的注意力。在你开始讲故事的时候，一个轶事是很有用的。例如，假设你正在做一个讲故事的会议，讲为什么很多顾客在结账前放弃购买。你可以从讲述一个小故事开始，讲一次你没有购买任何东西就离开商店的经历。你可能会说这是由做决定的压力造成的。然后，你可以把这一点延伸到为什么这么多顾客可能会放弃购买的更大故事中。

个案研究

另一种很好的叙事类型是案例研究。案例研究是当你转述一个小问题以及它是如何被解决的。当您试图展示一个可能的解决方案时，如谈论过去的数据科学挑战和解决问题的解决方案，案例研究非常有用。假设您想通过案例研究来找出客户放弃购买的原因。你可以解释说，当网站重新设计后，购买量出现了小幅下降。设计团队简化了网站，购买量又上升了。该案例研究与一个更大的故事有关，数据科学团队认为结账流程过于复杂。

例子

第三种类型的叙事是一个例子。示例类似于案例研究，只是它们不一定列出挑战和解决方案。它们通常也是关于其他人的。当你试图证明你的大故事的某个部分是正确的时候，使用例子。也许你会指出，其他几家公司也在努力简化客户的网上购物方式。因此，你的听众将要听到的故事对你的公司来说不一定是不寻常的或孤立的。

情节

第四种类型的叙事是场景。一个场景是当你列出一系列事件，并要求你的观众考虑每一个结果。场景没有被广泛使用，这很不幸，因为它们通常是让你的观众思考未来的好方法。很多演讲者认为场景听起来太幼稚，所以如果你决定使用场景，确保它不要太简单。

一个场景通常在讲故事开始时效果最好。也应该用第三人称来讲。你不希望这个场景听起来像个人轶事。例如，您可以转述以下场景:Julie 正在午休，还有五分钟时间购买她想要的产品。三分钟后，她找到了她想要的商品，并把它放进了购物车。就在她准备结账时，她看到了另外四件她也想要的产品。她没有足够的钱买下这五样东西，那她该怎么办呢？她会放弃推车，以为她会回来，然后忘记吗？

小插图

最后一种叙事是小插曲。小插曲就像一个小场景或一部小电影，通常以第三人称讲述。好的插画会吸引观众的注意力。你可能想以一个关于你沮丧的顾客的小插曲来开始你的故事。比如，“为什么他们总是重新设计网站？我只是在最后一次重新设计后才发现所有东西都在哪里。”

这五种叙事风格应该能帮助你提高听众的参与度。请记住，这些叙述本身并不是故事。他们可以帮助你，但他们不能取代你更大的故事和它的意义。

摘要

在这一章中，你学习了“编故事”这个短语，以及如何使用五个关键的“线索”将它融入到你的故事中

激发你的观众的好奇心。
试着用类比或分享的经历与你的听众联系起来。
尽量不要用“我”或“我”这样的词。相反，使用“你”或“你的”你想把焦点放在观众身上。
问一些有趣的问题。
不要太认真。如果你风趣或者平易近人，你的听众会更容易接受你的想法。

然后你学习了五种类型的叙述(轶事，案例研究，例子，场景和小插曲)。当您试图向观众解释数据科学概念时，可以使用这些工具。在第二十章中，你将学习如何理解故事结构。

Footnotes 1

南 h .布彻，亚里士多德的诗学。(麦克米伦，1961)。

二十、理解故事结构

讲故事不仅仅是对发生的事情的简短描述。如果你告诉某人你去杂货店买了一加仑牛奶，你不是在讲故事。故事有着复杂而一致的结构。需要有冲突和情节。在这一章中，我们将谈论一个典型故事的要素。你可以用这些元素来编织一些东西，抓住你的观众的想象力。光描述数据是不够的。一个复杂的数据科学故事必须展示洞察力的重要性。您还会发现，您的许多数据科学故事将遵循类似的情节。当你看到这些模式时，你可以用一种方式来组织你的故事，这种方式将帮助你的观众从你的团队的洞察力中提取意义。

使用故事结构

您已经看到了如何将不同的线索编织成一个故事。你也可以用不同的技巧来吸引你的观众。现在，让我们来看看将所有这些整合到一个更大的结构中的不同方法。

您的数据科学故事应该有三个阶段:开始、中间和结束。你应该利用这些阶段来帮助观众找到你故事的意义。在每个阶段，你都想做一些不同的事情。

在第一阶段，与你的观众一起建立环境。第二阶段应该引入冲突。然后，你应该通过创造一些动作来结束故事。也许你解决了冲突，也许人物从斗争中学到了什么。

设置上下文

背景是你设置场景和角色的地方，介绍他们并把他们放在时间和空间中。您希望尽快建立上下文。许多人花太长时间来设置上下文。你应该花足够的时间来介绍角色并把他们放在某个场景中。

例如，假设你的研究负责人正在讲故事。她以设置上下文开始。她开始说道，“我们一直在密切关注在我们网站上购买鞋子的顾客。我们可以看到他们住在哪里，并将其与他们买鞋的频率联系起来。”这就建立了一个背景:购买跑鞋的顾客，与他们的居住地相关联。

引入冲突

中间，开始说冲突。实际上，冲突是故事中最令人难忘的部分。前一个例子中的研究负责人可能会说，“居住在城市地区的顾客更有可能购买跑鞋。事实上，人口越密集的地区，他们购买跑鞋的频率越高。我们觉得这很奇怪。作为跑步者，我们并不喜欢在人口密集的地方跑步。大型车辆太多，车流量太大。所以我们决定进行一些实验。”

冲突是你吸引观众的地方。他们可能已经在想这是意料之外的。研究负责人用个人轶事来激发他们的好奇心，他们甚至可能会提出自己的理论。也许他们认为这是因为顾客更年轻，或者他们住得离大公园更近？

接下来，研究负责人想要创造一些行动。这是她通过解释冲突的解决方案来解决冲突的地方，她在哪里寻找数据，以及她发现了什么。她应该稍微谈一谈所采取的行动，但同时不要过多地解释细节。她可能会说，“我们做了一个实验来观察他们的年龄。这些客户往往更年轻，但一旦我们进行了调整，仍然存在相当大的差异。我们还看了一些地图，在这些地图上我们有很多活跃的客户。我们想看看是否有更多的跑步路径。事实证明，一般来说，城外有更好的路。"

现在，研究的领先将观众吸引到这场斗争中。她不想花太多时间谈论所有的实验。与此同时，她仍然想刺激他们的好奇心，甚至可能建立一些期望。

Note

在本章的后半部分，你会发现更多关于如何表达冲突的内容。

结束故事

在故事的结尾，她说了这样的话，“事实证明，我们发现的最强的联系是，如果顾客住在健身房三英里以内，他们更有可能购买跑鞋。”这就是你在图 20-1 中看到的。

图 20-1。

Customers who live near a gym

橙色虚线表示住在离健身房不到三英里的顾客在跑鞋上的平均花费，灰色虚线表示住在离健身房三英里以上的顾客在跑鞋上的平均花费。这两个变量之间有明显的负相关性。参见如何在 http://ds.tips/pUhe3 创建此图表。

她以一个小插曲结束，说道:“想象一下我们的客户住在体育馆附近。他在室内跑步，并且一直在寻找保持身材的新方法。光是在健身房旁边，就足以让他买更多的跑鞋。”

她通过引入新的见解结束了这个故事。也许她甚至会问观众是否有任何问题，并利用这些问题为下一次讲故事提出一系列新问题。

给你的故事一些结构可以帮助你的观众从你的故事中获得意义。记住，你要把最大的努力放在故事的中间。观众最有可能记住这场冲突。然后你可以用一个行动项目结束，甚至获得更多问题以获得更深入的见解。

介绍剧情

在上一节中，您了解了故事中基本上有三个阶段(背景、冲突和结尾)。在上下文和冲突之间，你需要包含一个情节。人物和情节使这个故事令人难忘。例如，在莎士比亚的《罗密欧与朱丽叶》中，罗密欧和朱丽叶是人物，他们的爱情是情节的一部分。他们的心碎和死亡是剧情的最后一块(抱歉剧透)。

在数据科学中，情节是你讲故事的主要部分。这是数据所说的和你对数据含义的解释。你的故事情节不一定要新颖才有意思。是你如何在上下文中把情节和人物编织在一起，让你的故事变得有趣。

在克里斯托弗·布克的《七个基本情节》中， ¹ 他认为所有的故事都只有几个情节。他说人类在听故事时有非常相似的心理需求。不是每个人都同意这对于文学来说是正确的，但是对于数据科学故事来说几乎肯定是这样的。你的观众只会寻找一些不同类型的情节。

布克的七个情节是:

白手起家
战胜怪物
探索
航行和返回
喜剧
悲剧与重生

在讲述您的数据科学故事时，请记住这些情节。这些图有助于准确定义你想要传达的内容。数据喜剧不太可能受到观众的欢迎，但其他六个情节只需要稍加调整就可以应用到你的讲故事环节中。

白手起家

最常见的故事之一是“白手起家”几乎每个组织都对他们可以用来创造新收入的洞察力感兴趣。也许你的团队有一个新产品的想法。也许你已经找到了一种方法来扩展你已经拥有的产品。当你讲述这种类型的故事时，想想你如何以一种与白手起家的情节相一致的方式来讲述这个故事。描述公司现在的状况，为未来的财富铺平道路。记住要清楚地展示情节，以帮助阐明你的故事，并帮助观众找到其中的含义。

战胜怪物和任务

数据科学故事的另外两个常见情节是“战胜怪物”和“探索”许多组织试图利用数据来应对危险的挑战。也许你的产品有了新的竞争对手，你的数据显示销量严重下滑。用你从数据中学到的一些聪明绝招，把你的计划集中在战胜这个怪物(竞争对手)上。鼓励你的观众开始探索。如果你试图说服你的观众做一些不同的事情，比如尝试一项新的商业冒险，或者介绍一种新产品，这一点尤其正确。这个情节把你的目的地浪漫化了。

航行和返回

一个不太常见的情节是“航行和返回”，这有时被称为死后。例如，你开始了一个新项目，并决定它不值得追求。现在，团队需要检查数据，并确定是否有任何教训要学习，或者经验中是否有任何价值。随着数据科学越来越受欢迎，你会看到更多这样的图。该组织将希望从这些失败中吸取教训。所以，在未来，你可能会看到更多的航行和返回讲故事的会议。

悲剧与重生

一个你不常听到的故事是数据科学悲剧。大多数组织更喜欢掩盖他们的悲剧。你可能会在政府项目中看到更多的数据科学悲剧，因为这些项目的观众非常有兴趣了解悲剧的全部范围。一个数据科学的悲剧故事将是对所有出错的事情的全面分析。它不会像尸检一样关注教训；它只会专注于理解这个令人遗憾的故事的全部。

最后，你可能会有一个关于重生的故事。有时公司看着数据，决定他们目前的业务是不可持续的。甚至像 IBM 这样的大公司也可能决定彻底改变他们的业务。IBM 从低利润的个人电脑和硬件销售模式转变为高利润的服务和咨询业务。他们这样做是因为现任 CEO 能够讲述一个令人信服的故事。这是青蛙王子故事的高科技版本。

呈现冲突

请记住，故事是用视觉效果来帮助观众理解某种意义的故事。人们通常认为你通过成功和成就的故事与他人联系在一起。这就是为什么许多商务会议开始时都有一些新的成就或目标。观众可能会鼓掌，但他们并没有真正理解任何意义。实际上是斗争，或者冲突，帮助人们找到意义，把你的观众和故事联系起来。

当你在讲故事时，你可能会有一整天都在过滤信息的观众。如果您与高层利益相关者一起工作，这一点尤其如此。他们一天要查看数百条信息，可能还要看几十份报告。要成为一个高效的数据科学团队，你必须以不同的方式与你的受众沟通。

你已经看到你的数据是如何讲述一个故事的。事实上，您已经看到了相同的数据如何讲述几个不同的故事。你的挑战是获取无生命的数据，并对其进行逆向工程，使其包含创建它的人的一些人性。你想要传达一场斗争，并为一个数据科学故事创造一个情节。

那么这看起来像什么？假设您在一家大型信用卡处理公司的数据科学团队中工作。您的团队发现，信用卡客户就在他们难以偿还账户之前改变了他们的消费模式。这些客户在陷入财务困境之前增加了信用卡的使用金额。您的数据科学团队在数十万张信用卡中发现了这种模式。

你的研究负责人可以用几种不同的方式展示这些信息。也许她展示了一个简单的线形图，显示了在顾客陷入困境之前消费的上升，或者讲述了一个关于成千上万顾客的故事。这两种场景都提供了信息，但可能不会将您的受众与数据联系起来。呈现信息的最佳方式是讲述一个有趣的故事，包括一个真实的斗争和冲突的情节。

首先创建一个真实姓名的角色。这不应该是一个真实的客户的名字，但它可以是一个基于您的客户的大多数共同特征的字符。您的研究主管可以这样开始她的讲故事环节:“我们的数据科学团队今天想谈谈我们的一位客户。让我们叫他艾伦吧。两个月后，艾伦将无力支付他的信用卡账单。他成为我们的顾客大约有六年了。在过去的两个月里，他已经花光了他的信用额度。这对艾伦来说很不寻常。他今年 48 岁，用信用卡支付食品杂货和交通费用。通常，他只用信用卡支付机票和酒店账单。我们知道艾伦将无法支付他的账单。现在我们该怎么办？”

通过以这种方式呈现数据，研究负责人结合了成千上万客户的数据，并创建了一个具有真实人类斗争的情节。你的观众应该能够以一种更有趣的方式与这些数据联系起来。也许他们在考虑是否对艾伦有义务。他们应该给他写信还是打电话？

不仅给角色起个名字很重要，而且你还想填充一些关于角色生活的细节。观众发现艾伦已经 48 岁了。他成为顾客已经六年了。这些细节有助于增强斗争和构建情节。

观众会更容易理解数据背后的含义。谈论如何对待艾伦要比谈论他所代表的成千上万的客户容易得多。有一个真实的情节和一场真实的斗争，并通过一些细节得到了加强。

尽管艾伦并不存在，但为了故事的目的，他变得真实了。他能以一种数据本身可能无法显示的方式帮助显示冲突。原本只是静态数据的东西变成了一个有真实斗争、细节和情节的故事。

摘要

在本章中，您了解了如何将数据科学故事的所有元素整合到一个更大的结构中。你学会了如何与你的观众一起设置背景，引入冲突，并创造一些行动。然后，你检查了不同类型的情节，你应该包括在上下文和冲突之间，以及如何呈现冲突。在第二十一章中，你将学习如何定义故事细节。

Footnotes 1

克里斯托弗·布克，《七个基本情节:我们为什么要讲故事》(A&C·布莱克，2004)。

二十一、定义故事细节

在第二十章中，你看到如果故事有情节和冲突，人们更有可能与故事联系起来。斗争吸引人们进入你的故事。在你建立了你的情节和冲突之后，你想让你的故事保持动态。一个好的方法是在你的故事中加入细节。这些细节就像小小的精神便笺，帮助你的观众记住更大的情节和斗争。这有助于他们在听的时候建立一个心理图像。

我曾经为一个组织工作，该组织试图利用数据科学让人们参与他们的医学研究。事实证明，很多人害怕针头——特别是用于血液测试的针头。原来有一部分人害怕针头和血液。这个截面是很多人。

我不是这两者的粉丝，我当然能理解这对医学研究的影响。如果涉及到针头，你会失去很多人。如果涉及到针头和血液，你会失去一大群人。这种对针头和血液的恐惧让该组织陷入了困境。他们需要通常对研究不感兴趣的人开始参与。

数据科学团队提出了一些很好的问题，并创建了几份报告。这些报告引出了一个有趣的故事。他们发现，如果有人参与并有一个非常好的经历，他们更有可能参与未来的研究。因此，如果一个不喜欢针的人在无针研究中有了积极的体验，这个人可能会参加未来包括针的研究。

数据科学团队想要讲述这个故事。该研究负责人决定，她想使用一个真正的参与者，只是改变她的名字。所有参与者都填写了一份深入的申请，并由一名护士进行评估，该护士也填写了一些信息。我们的研究负责人在她的故事中使用了其中的一些信息。这些应用程序是不同细节的宝库，提供了护士和参与者的观察结果。

这位研究带头人以一则小轶事开始。她说:“当我还是护士的时候，我总能分辨出谁害怕打针。他们总是以某种方式交叉双臂。他们抓住自己的双肘，以保护自己免受手臂戳伤。有很多这样的人，我们需要他们参与我们的医学研究。所以我要告诉你们一些我在我们的一篇报道中发现的一个人。

“让我们叫她特雷西吧。她参与了我们正在开发的一种帮助人们睡眠的药物的医学研究。在研究的第一天，她带着自己的枕头出现了。她肯定对它的效果很乐观。她希望这种新的药丸能帮助她，因为她在压力大的时候很难入睡。

原来，特雷西是没有从药物中获得任何好处的参与者之一。临走时，她告诉护士，她的父亲是一名医生，所以她觉得自己有义务参与医学。她说她永远不会成为一名医生，因为她害怕血和针。几个月后，她决定参加流感疫苗试验。这项研究需要用于疫苗接种和随后的血液测试的针头。那么 Tracy 为什么决定参加呢？"

这位研究负责人以描述行动号召结束了她的故事。数据科学团队认为，让人们在没有针头的情况下参与研究是增加潜在参与者数量的最佳方式。

现在，想想你刚才听到的故事。你记得的一些事情是什么？你记得参与者的名字吗？你还记得她为什么参加第一项研究吗？你可能会，但很可能你记得细节。帮助你创造一个精神形象的小花絮。你可能记得她带了个枕头或者她爸爸是个医生。

这些细节有助于你从头到尾地讲述你的故事。他们创建快照来帮助你的观众了解全局。当您讲述您的数据科学故事时，请尝试使用这些小事实来为您的故事增添活力。他们帮助你的观众联系到剧情和斗争。

报道不说明问题

商业演示很无聊。它们并不是为了有趣而设计的。它们是用来传达你的状态的。它们就像是对利益相关者的口头“回复”。这通常适用于典型的状态会议，但是您希望您的数据科学团队做一些不同的事情。

请记住，数据科学就是将科学方法应用于您的数据。你的团队将探索数据，研究问题，寻找关键的见解，并解释许多不同的结果。你的团队面临的大部分挑战都围绕着解释数据。你需要分解数据并解释其含义。

我曾经和一个数据科学团队一起工作，该团队专注于向信用卡客户提供促销。团队问了很多有趣的问题。其中一些是关于他们客户的购买习惯。其中一个问题引出了一个关键的见解。该团队想知道客户是否接受成批促销(一次不止一次促销)。事实证明，这个问题导致了一些非常有趣的报告，这些报告显示，如果客户接受了一次促销，他或她将更有可能接受下一批促销。

数据科学团队希望在他们的一次数据故事会议上展示这一见解。研究负责人想出了一个演示文稿，但不是一个故事。她只是想解释那些仍然是探索性的发现。陈述没有试图解释这些发现意味着什么。该团队只是想指出，顾客更有可能接受成批促销。然后，他们让房间来决定如何处理这些信息。

我提醒研究负责人，讲故事的环节并不是仅仅展示信息的合适场所。她需要编织一个有趣的故事，这样房间就会被吸引并与意义联系起来。

我问研究负责人，为什么她认为顾客会成批接受促销。她说，数据表明，大多数消费者都是分批拿到钱的，这使得他们在上涨时花得更多，在下跌时花得更少。顾客也更有可能在他们人生的某些阶段接受促销。

我们都认为这是传达这一信息的更好方式。房间里的每个人都会有相同的经历。在他们生活的不同时期，他们都有或多或少的钱可以花。为什么不利用这种共享的体验来传达顾客是如何接受促销的信息呢？研究负责人提出了一个新的演示文稿。她创作了一个名为“人们生活中不同时期促销的影响”的故事

她以讲述她过去的一件轶事开始了她的陈述。她说她上大学时有一个室友。他们过去常常收到邮寄的优惠券，提供买一送一的饭菜。下课后，她的室友会回家问邮件里有什么，这样他们就能知道那天晚上去哪里吃饭。她说经过四年的大学生活，他们最终对食物有了相同的口味。

一些人笑了——他们已经开始思考人们在生活的不同时期是如何利用商业促销的。对于研究负责人来说，呈现她故事的其余部分是一个容易得多的过渡。她描述了大多数顾客在一生中的不同时期是如何接受不同比例的促销活动的。类似情况下的顾客会成批接受促销，而不是源源不断。

与故事相结合的轶事极大地鼓励了小组成员的参与。许多观众变得非常好奇，并问了这样的问题，“这是否意味着，如果有人觉得自己正处于人生中的脆弱时期，促销可能会更有效？”另一名观众问道:“团队离预测客户何时会进入接受大量促销活动的阶段还有多远？”

如果她只是开一个典型的演示会议，她绝不会有这种程度的参与。这个故事吸引了他们，并帮助他们将数据与自己的经历联系起来。观众会想到他们更有可能接受升职的时候。然后，他们能够提出有趣的问题，并以此为基础。

了解你的观众

当你讲故事时，最大的挑战之一是了解你的听众。你的听众中的每个人都有他或她自己对世界的看法，并且会带着一大堆假设和信念来听你的故事。你的听众在那里是因为他们想从你那里听到一些东西。他们可能还不知道这是什么，但他们听到后会有所反应。

我曾经为一个大型政治活动工作过。该活动试图利用技术来更好地了解他们的观众。竞选开始几个月后，这位候选人向听众发表讲话，听众中包括几十年来失去许多工作的人。他站在一座旧工业建筑的骨架中，谈论新的工作培训。他讲了一个关于每个人如何从高科技技能中受益的故事。观众鼓掌，但并没有真正理解这个故事。

几天后，这位候选人的对手去了一个类似的地方。他在一条慵懒的棕色河边的一个废弃的旧仓库里发表了演讲。他以“我知道你们很多人都不确定”开始了这个故事。你不确定你的生活方式是否有未来。”然后他讲述了一个关于如何保存重要物品的小故事。故事结束时，目光呆滞的观众鼓起掌来，直到候选人离开舞台。

第一个候选人显然不了解他的听众。观众不想回去学习如何成为会计师。他们只是想让事情回到原来的样子。一旦第二个候选人在这个层面上对他们说话，他们就能理解这个故事。

政治运动当然不同于数据科学团队；然而，该原则仍然适用。你越了解你的听众，你就越能有效地讲述你的故事。

了解你的听众的最好方法之一是一种叫做热身的技巧。这是你四处走动，和一些观众聊天的时候。他们中的一些人会直接告诉你他们在找什么。你可能会听到这样的评论，“我很好奇这和我正在做的事情有什么联系。”然后你可以问她:“你在忙什么？”如果这样的事情发生了，你可能想要实时修改你的故事来满足你的观众的期望。

你通常可以把你的听众分成五个不同的群体:

观察者:观察者是因为会议在他或她的日程表上而出现的人。这个人对话题不是很了解，期望很小。你能为这个观众群体做的不多。试着让你的故事保持有趣，限制你的首字母缩略词或技术术语。
看门人:看门人在观众中，看你的故事如何影响他或她的工作。这是一个很好的例子，说明当你让房间温暖起来时，你会发现什么样的人。如果你在你的故事中使用一个例子，试着直接把它和那个人所在部门的人联系起来。这将有助于这个人建立明确的联系。
经理:听众中的经理对相互依赖感兴趣。同样，你可以用例子来展示部门之间的互动。你也可以在故事的结尾创建明确的行动项目。这个受众群体通常会问最多的跟进问题。
专家:你的听众中的专家总是会要求更多的细节。如果你不小心，专家可能会打乱你的故事，让它变得不那么有趣。如果他们这样做了，一定要解释新的细节，以便其他观众可以继续参与。
高管:你的听众中的高管希望收集更大问题的答案。如果在你的故事结束时，高管问了这样一个问题，比如“你如何看待这件事对公司其他人的影响？”这总是一个好兆头如果观众中有高管，不要放太多幻灯片。如果他们盯着你的幻灯片，他们就没有听你在说什么。

如果你努力识别你的读者，了解他们在寻找什么，他们就更有可能与你的故事联系起来。如果你把你的听众分成这些小组，你将有更好的机会满足他们的期望。

相信你所说的

约翰·斯坦贝克曾经说过:“如果一个故事不是关于听者的，他就不会听。。。一个伟大而持久的故事是关于每个人的，否则它不会持久。陌生和外国的东西并不有趣——只有非常个人化和熟悉的东西才有趣。” ¹

当你在讲故事时，你最有说服力的能力是你自己对这个话题的兴趣。你的听众会一直检查你是否相信你所说的。如果他们感觉到你致力于讲述你的故事，他们会更容易理解。

当我在法学院的时候，我选了一门关于诉讼的课程。这门课是关于如何就你当事人的遭遇联系陪审团。陪审团总是对你当事人的故事很好奇。他们是怎么到那里的？为什么他们会被审判？

我们的教授已经和陪审团谈了几十年了。他长长的白胡子让他看起来几乎像绝地武士。他给了我们一些简单的建议。他说，讲故事的时候，尽量不要让它听起来不平凡。不要试图就所发生的事情编造一些牵强附会的故事。相反，专注于你所知道的。讲一个关于普通事物的好故事，因为你所知道的是你唯一能真实呈现的。当你不相信自己说的话时，陪审团能感觉到。说出你所相信的，哪怕简单平凡。清晰而充满激情地说出来就好。

当你试图与你的观众沟通时，也是如此。如果你不相信你的故事有趣，你就很难讲出来。假装激情是非常困难的。

如果有人对她的话题充满热情，她几乎总能以一种有趣的方式谈论它。我曾经听过一个关于飞行时免费航空杂志的介绍。演讲者对这个话题充满热情，吸引了很多人。我也听过关于国际政治动荡的报告。你可以看出演讲者对这个话题不感兴趣，而且对这个话题的描述也很专业，没什么意思。

你在数据可视化中经常看到这种情况。一些研究领导认为，一个好的数据可视化可以给一个无趣的故事添加“流行元素”。如果你自己都不觉得有趣，即使是最漂亮的图形也不会让你的故事更有趣。你的观众会从你身上获得兴趣，而不是从你在屏幕上展示的任何东西。

你可以做几件事来以有趣的方式呈现一个故事:

确保题目有趣。如果你不能呈现一些有趣的东西，那就不要呈现任何东西。如果你对有多少人买了红色跑鞋不感兴趣，你就无法讲述一个有趣的故事。在你的故事中寻找一些有趣的东西。找不到就不要讲故事。
把自己和故事联系起来。告诉你的观众你为什么觉得它有趣。也许讲一个你如何去美国西南部旅行的故事。你注意到人们穿着你在这个国家的其他地方看不到的颜色。所以你回来就想看看有没有办法更好的迎合这群客户。谈谈你实现目标的步骤。
听起来像个真人。许多组织给他们的员工施加了很大的压力，让他们变得高效和超人，就像一群只关注工作表现的瓦肯人。他们回避激情和情感。这不太适合讲故事。当人们脆弱的时候，他们更容易与人交流，并且可以自嘲。
分享你真诚的感受。你不希望你的讲故事会有一种支持团体的感觉，但是分享一种感觉会帮助你的听众相信你所说的。

记住你是你演讲中最重要的东西。漂亮的图表、聪明的轶事和成堆的数据都无法弥补你对这个话题的热情。如果你不能用有趣的方式来解释，即使是最非凡的数据也会显得乏味。关键是要确保你相信这个故事是有趣的。如果你不能说服你自己，你就不能说服你的观众。

摘要

在这一章中，你学到了不仅仅是报告数据，你需要做一些不同的事情。对你来说，熟悉你的受众并了解受众中不同类型的人(观察者、看门人、经理、专家和高管)是很重要的。你也学会了相信你所说的，这样你就可以用一种有趣的方式来讲述你的故事。在第二十二章中，你会发现如何将你的故事人性化，让人们认同你所讲述的内容。

Footnotes 1

约翰·斯坦贝克，《伊甸园之东》(纽约:企鹅图书公司，1986 年)。

二十二、人性化你的故事

我们花了很多时间谈论故事。你已经看到了一个简单的故事和一个有情节、人物和冲突的故事之间的区别。你也看到了如何以吸引观众的方式讲述一个故事。尽管如此，这是一本关于数据科学的书。这是关于使用科学方法来更好地理解你的数据。最终，你会有数据，并希望观众以一种有意义的方式与它联系起来。然后你会让观众通过采取一些行动来创造价值。

您已经看到了如何首先创建故事，因为这是您展示数据的方式。现在，您需要对数据的漩涡进行逆向工程，并反映出创建它的有缺陷的、情绪化的和不可预测的人类。这是主要的挑战，也是数据科学团队与数据分析师的区别。作为一个数据科学团队，你的工作是揭示数字背后的人性，这就是为什么你不应该只是用数字的语言来传达信息。

这么想吧。你在机场，发现一部手机错放在一个空座位上。此人没有锁定手机，您可以访问他们的所有数据。你如何找到手机的主人？你需要从这部手机里得到什么数据才能找到机主？

很有可能，你不会从分析手机费用和有人会退回手机的可能性(统计模型)之间的关系开始。此外，如果你重新讲述这个故事，你可能不会使用数据和统计的语言；例如，“我找到了一部智能手机，但我把它留下了，因为很有可能有人会回来。”相反，你应该从以一种更“人性化”的方式重现故事开始。也许这个人在等飞机，然后跑去吃东西。你查看智能手机上最近的通话记录，看机主是否在离开前给某人打过电话。你知道，人们经常在登机前给他们的丈夫、妻子、女朋友或男朋友打电话。也许你可以看看日历，看看有没有航班信息。

你不会认为智能手机是一个数据仓库；你认为它是一个珍藏着一个人的照片、视频和联系人的设备——一些有人会想念的东西。最终，您将处理这些数据，因为在那里您可以找到智能手机的电话号码、日历和联系信息。在这个思考过程中，你以故事开始和结束，数据只是中间的媒介——希望在故事的结尾，这个人能与他们的手机重聚。

在保罗·史密斯的书《以一个故事开始》中，他描述了宝洁公司的首席执行官 ?? 如何来到演示现场，背对着幻灯片坐着。史密斯描述了他给首席执行官做的一次演示，他一次都没有转身去看数据。演示结束后，他意识到这不是偶然的。大公司的 CEO 无时无刻不在看数据。他们知道数据是载体，演讲者讲述的故事具有全部价值。这就是为什么当你在讲故事的时候，你不想把太多的重点放在数据上。除非数据与受众联系起来，否则它将没有任何价值，而数据本身无法做到这一点。这是你讲述的关于数据的故事，帮助观众理解其中的含义。

在演示过程中，你希望你的听众放下笔，合上笔记本电脑。你希望他们看着你，只是偶尔瞥一眼你展示的数据。如果他们花太多时间看图表，那么他们可能在想别的事情。只有在故事将你的受众与数据联系起来，并赋予它一些意义之后，你的受众才会被刺激而采取行动。

视觉效果介绍

有许多关于数据可视化的好书和课程。在第八章，我推荐了科尔·努斯鲍默·克纳弗里奇的《用数据讲故事》和爱德华·塔夫特的《量化信息的可视化展示》2 。 ³ 这两本书都有非常战术性的讲故事观点。他们谈论伟大的视觉如何创造伟大的故事。它们暗示着数据可视化与精彩的故事讲述密切相关。你在两本书中都可以看到这一点。

用数据讲故事包括六课。前面的课程包括选择显示器和消除图表混乱等内容，最后一课是讲述一个故事。你应该反过来想这些课，讲故事的课出现在其他课之前。在考虑图表和图形之前，您的数据科学团队需要理解数据，并讲述一个故事来帮助观众找到一些意义。

这些书和课程非常棒，但是它们夸大了数据可视化的重要性。图表和报告当然有助于讲述你的故事，但是是故事的质量将你的观众与更大的意义联系起来。可视化只是这项工作的一小部分。

你的数据可视化对你的故事既有帮助也有坏处。太多的视觉效果会分散注意力，因为每次你展示一个新的图像，人们都需要时间来处理这个变化。在吸引观众时，对你展示的数据量要保守。这些书给了你很多好主意，告诉你如何用最少的混乱展示最多的数据。希望你的观众只需要花一点时间看一下图像就能理解它的内容。然后他们可以回去听更大的故事。

需要记住的最重要的一点是，数据可视化是调味品，而不是食物。一个真正有趣的故事不需要好的视觉效果。同时，再好的数据可视化也掩盖不了一个无聊的故事。

如果你是团队的研究负责人，你可以做一些事情来简化你的视觉效果，这样它们可以在不分散观众注意力的情况下增加故事的价值:

将你的数据分成小的、容易理解的部分。你的听众花在数据上的时间越多，他们花在听你的故事上的精力就越少。尝试这两本书中的技巧来创建轻量级可视化。两本书都描述了去除不必要信息的过程。你试图达到你需要交流有趣的东西的最低限度。当您查看可视化效果并查看数据是否仍然有意义时，请关闭文本标签。如果你选择显示大量的数据，那么最好是有一个可消化的连续流，而不是一些观众需要消化的图表。
明确区分呈现数据和讲故事。区分这两者的一个很好的方法是使用点击器。将遥控器握在手中，更换幻灯片和演示数据。放下遥控器，用双手讲述你的故事。这给了你的观众一个吸收数据的机会，这样他们在处理一个新的可视化时就不必听故事了。
请记住，数据可视化本身并不能让你走得很远。如果你想讲述一个像芝加哥这样伟大城市的故事，不要只展示一张漂亮的地铁地图。一个像地铁图这样奇妙的数据可视化，可以告诉你去哪里，但不能给你去那里的理由。讲述美食、美好的社区和密歇根湖沙滩的故事。这些东西会刺激你的观众采取行动，并可能让他们想要访问。

如果您理解可视化的局限性，您可以从额外的好处中获得价值。不要错误地认为好的视觉效果可以代替有趣的故事。

排除杂念

在讲述数据科学故事时，您很想分享大量数据。一些团队觉得这是展示他们工作的好机会。不幸的是，讲故事环节不是展示数据科学复杂性的好时机。正如你所看到的，一个好的讲故事的会议使用数据作为配角，而不是主角。这就是为什么你会从你的演讲中去掉任何不能增强故事情节的东西。当你接近完成你讲故事的内容时，你应该拿出更多的东西，放进更少的东西。

有两个主要的地方你希望尽可能的整洁。首先，正如上一节所讨论的，确保您的数据可视化尽可能的清晰。第二，确保你有足够的角色、情节和冲突来维系整个故事。去掉所有的东西，这样你就能抓住故事的精髓。

我曾经为一个组织工作过，这个组织的讲故事会议是由一个导演主持的。他首先祝贺数据科学团队取得了巨大的成果。然后他谈到公司变得更加数据驱动是多么重要。他说，这是听众中的利益相关者制定的组织战略的一大部分。

十分钟后，导演开始讲述故事的要点。不幸的是，到这个时候，很多观众已经不再关注了。一些高管看着他们的智能手机，而其他人只是茫然地盯着第一张幻灯片。这种在演示开始时添加的信息使得导演更难吸引观众。

现在想象一下，如果导演立即吸引观众。他说，“我们认为我们找到了更好地预测客户行为的方法。通过观察模式，我们可以更好地在顾客考虑购买之前判断他们会购买什么。”然后他讲述了一个典型客户的故事，甚至还用到了故事中的其他角色。通过这种方法，观众从他开始讲述故事的那一刻起就参与进来了。

记住，观众想从你的故事中带走一些东西。当你开始讲故事的时候，给他们一些有趣的东西。随着你继续给予他们更多，他们会越来越深地被你的故事所吸引。

这就是为什么你应该努力去除通常在每次会议开始时的所有组织规范。讲故事是一个特殊的场合。你的研究领导不应该把它当成一个典型的状态会议。你不必祝贺球队。你不必展示他们工作的重要性。当你给观众他们想要的东西时，他们更有可能赋予你的故事意义。

在讲故事的过程中，你不需要太多的数据可视化。当你使用它们时，试着消除任何分散注意力的信息。找出任何容易总结的详细数据。从图像中删除任何不需要的文本。当您查看数据可视化时，问问自己是否有什么可以消除的。如果你把它拿掉，会不会影响你想要传达的东西？不是每个点都需要文本标签，也不是每个系列都需要拼写出来。例如，如果您有一个显示星期一到星期五的时间序列，那么并不是每天都需要标签。

当你消除分散注意力的信息时，你在为他们做一些观众的工作。他们不需要考虑太多视觉化的东西，也不需要想你要讲什么。你可以消除你和观众之间的这些障碍。

记住少即是多。一个好的讲故事会议不像烟火表演。你不想让你的视觉、听觉和色彩漩涡让观众眼花缭乱。应该很简单，重点突出。应该有易于阅读的可视化和简单的故事情节，只有一些令人难忘的细节。

摘要

在本章中，您了解到数据科学团队应该使用故事来揭示数字背后的人性。一个很好的方法是在你讲故事的时候使用可视化。此外，您发现应该删除演示文稿中不能增强故事情节的任何内容。在第二十三章中，你会发现如何使用隐喻来缓和新的想法。

Footnotes 1

保罗·史密斯,《以故事为先导:吸引、说服和鼓舞人心的商业叙事指南》。美国管理协会 AMACOM 分部，2012 年。

Cole Nussbaumer Knaflic，《用数据讲故事:商业人士数据可视化指南》(John Wiley & Sons，2015)。

Edward R. Tufte，定量信息的视觉显示，第二版(美国:美国图形出版社，2001 年)。

二十三、使用隐喻

我们生活在一个充满隐喻的世界。我们在普通短语中看到它们。你可以“忙得像只蜜蜂”、“心碎”，也可以“安静得像只老鼠”它们在文学作品中很常见。你可能听说过“整个世界是一个舞台”或者麦克白试图探究“时间的种子”的比喻政治家在他们的演讲中使用它们。有里根总统的“美国的早晨”，奥巴马总统说经济已经“陷入困境”

你看到这么多隐喻的原因是它们有效。它们把你知道的东西和你不知道的东西联系起来，让不熟悉的东西看起来更熟悉。在他们的书《我们赖以生存的隐喻》中，作者乔治·莱考夫和马克·约翰逊认为隐喻对我们的思维方式至关重要。我们用隐喻来理解爱情、战争和合作等概念。他们写道，“那些把他们的隐喻强加于文化的人可以定义我们认为是真实的东西。”

当你讲述一个数据科学的故事时，使用隐喻作为一种方式来缓和新的想法。记住，隐喻让未知看起来熟悉，当你听到一个关于熟悉事物的故事时，你更有可能将其与某种意义联系起来。

从文学的角度来看，一个隐喻让两件事变得一样。例如，看看这个短语“连锁反应”。你想一想一条链条是如何在每一个环节相连的情况下工作的。当你想到一件事情发生时，这件事情会影响到其他几个环节。这比“自我放大事件”这样的术语更容易想象。

在讲故事时，只要把隐喻想象成任何把未知事物和已知事物联系起来的东西。这样，你就不必太担心隐喻、寓言、明喻和类比之间的细微差别。保持简单就好。如果你把两件不同的事情等同起来，就把它当成一个比喻。

数据科学涉及到很多难以理解的概念，因此已经有一些成熟的隐喻:数据仓库、数据挖掘、数据湖、技术债务和淘金，等等。这是您在描述困难的数据科学概念时想要使用的诗意语言类型。

假设您的团队正在为一家大型电影工作室工作。你想找出一种方法，使用预测分析来决定在多少个屏幕上放映一部新电影。你不想在太多的屏幕上放映这部电影，因为那样的话，电影院会有很多空座位。你也不希望在很少的屏幕上放映，因为人们可能买不到票，完全跳过这个节目。您的数据科学团队收集了结构化和非结构化数据。你有大量的结构化数据，显示人们在许多不同的网站上观看了电影预告片。你也有很多非结构化的数据，表明有很多电影的嗡嗡声。人们在 Twitter 和脸书等社交媒体网站上大量谈论这部电影。

当你的研究负责人向观众讲述数据故事时，不要说“我们的非结构化数据分析表明，人们对这部电影很感兴趣，”也许她应该说，“社交媒体网站上有很多友好的聊天，表明人们真的想看这部电影。”这样，受众就能立即知道这些数据的价值和来源。观众头脑中也有数据是如何产生的图像。

你也可以在其他方面使用隐喻。例如，“这些都是抢手货”和“电影上映几周后，我们可以期待一段冷静期。”这些隐喻使故事更有趣，更好玩，这让你的观众参与进来，并帮助他们在你的故事中找到一些意义。

当你使用隐喻时，你可能会打破你和你的观众之间的障碍。在数据科学中，使用复杂术语总是有一些危险。你总是冒着造成脱节的风险。一个比喻不仅让你的故事听起来更有趣，还降低了参与的门槛。与“非结构化数据分析”相比，您的听众中有人可能更有可能质疑“友好交谈”的价值你的观众参与得越多，他们就越有可能从故事中获得一些意义。

设定愿景

在她的书《共鸣:呈现改变观众的视觉故事》中， ² 南希·杜阿尔特讲述了创造视觉以激发变革的技巧。她谈到的技巧之一是创造对比。这是将当前环境与未来愿景分开的能力。很多时候，您可能希望使用数据科学故事来为您的组织创建新的愿景。例如，您在数据中看到一些新的东西，并希望改变方向以利用新的洞察力。您可能会在数据中发现一些东西，为组织中的新角色提供一个案例。

不管怎样，设定愿景是你在讲故事时最具挑战性的事情之一。一个对比现在和未来的故事需要极大的信任。如果他们不相信你知道路，没有人会愿意和你一起去寻找新的目标。这就是为什么你首先要做的事情之一是帮助建立自己的信誉。做到这一点的一个方法是使用参与、愿景和真实性(EVA)。如果你是电影《瓦力》的粉丝，你应该很容易记住这种方法(“Eeevva”)。当你想用对未来的新眼光来讲述一个故事时，这种技巧是非常有价值的。

你要做的第一件事就是吸引你的观众。使用我们在本书中提到的一些技巧，将它们引入你的故事中。如果你不能让你的观众相信有一个有趣的故事要讲，他们就不会有动力去做任何改变。这里有一些提示供你记住:

专注于一个有趣的情节，并有令人难忘的细节强有力的人物。
为未来建立一个清晰的愿景。帮助观众描绘出这个未来愿景的真实变化。
真实地传达这一愿景。如果它看起来像是推销，你的观众不会相信你的愿景符合他们的最佳利益。

创造一个有趣的情节

假设你在一家电力公司工作。您的数据科学团队想出了一种更有效地分配电力的方法。在你的讲故事环节，谈谈你目前是如何分配权力的。解释大量电能被浪费是因为它们被用在了不需要的地方。建议您可以使用数据科学来创建设备，并根据需求实时分配电力。让他们知道，您的团队可以根据非结构化和结构化数据的组合来预测您的客户将需要多少电力。他们可以分析来自国家气象局的数据，然后将这些数据与来自社交媒体的一些非结构化数据进行比较。你可以用一个普通的比喻来讲述这个故事，比如“智能能源网”你也可以引入其他公司正在尝试类似做法的案例研究，然后运用批判性思维来比较你的组织，突出关键差异。所有这些想法都有助于创造你的故事情节。你希望组织进行新的探索，所以让角色有趣，并在现在和未来之间建立一些冲突。

创造愿景

愿景是故事中影响最大的部分。创建一个未来愿景，让组织使用数据科学根据个人需求实时分配电力。谈论这将如何更加环保。例如，德克萨斯州的一个风力发电厂可能会有一个大风天，这将会给亚利桑那州的高温期提供额外的电力。

你也可以把这个系统比作一个活的有机体。使用这个比喻来谈论系统将如何适应和呼吸稳定的数据流。所有这些技巧都有助于吸引你的观众，巩固你的视野。

保持真实性

最后，你想保持你的真实性。当你尝试 EVA 方法时，你的受众需要将你视为组织内部的一员。对于顾问和组织外的人来说，很难带来你需要的那种真实性，来真正吸引你的观众并建立一个新的愿景。你需要给人留下一个关心公司并对这一追求真正感兴趣的印象。

创造未来的愿景是你将要讲述的最具挑战性的故事之一，但如果你想做出真正的改变，这是你必须要做的事情。请记住 EVA 方法是让这些故事更加成功的一种方法。

激励观众

哲学家柏拉图曾经说过，“讲故事的人统治社会。”他们这样做是因为他们激励人们倾听并做出改变。你已经看到了如何通过不同的技巧来构建一个故事，帮助吸引你的观众并传达一个意思。现在是时候把所有这些都集中起来，让你的观众行动起来了。你会想利用这种参与度，把它变成激励你的观众做出改变的东西。

有七个步骤可以引导你的听众采取行动。每一个都建立在另一个之上，并以新的行动项目结束。你希望你的听众在听完你的故事后有动力去尝试新的东西。

了解你的观众:找出什么能激励你的观众。如果你能确定他们的需求，你就可以修改故事来迎合他们的恐惧或欲望。
建立情感联系:用个人轶事和小短文在情感层面上吸引他们。
提供背景:如果不谈论你已经去过的地方，你就不能谈论你想去的地方。让你的听众理解为什么需要做一些新的事情。
让你的观众关心你的人物和情节:如果观众不关心组织或数据，他们就不会有行动的动力。
使用隐喻让变化看起来更熟悉:你不希望你的观众害怕采取行动。一个好的比喻能让你的观众容易接受新的或危险的东西。
使用清晰的对比:使用上下文来设定观众在哪里，然后使用对比来显示他们需要去哪里。这可以是一个新产品或服务，或者是一个表明组织应该停止做某事的数据故事。
创建一个清晰的行动号召:如果你已经很好地完成了前面的六个步骤，听众将会准备好采取一些新的行动。清楚地陈述你希望你的听众做什么不同的事情。你不希望你的观众回去做他们一直在做的事情。

想一想你可以如何用这七个步骤来讲述一个关于跑鞋网站的故事。想象一下，数据科学团队有一些强有力的证据表明，客户对在线购买鞋子犹豫不决。数据显示，一些顾客频繁退货，然后在其他地方购买鞋子。数据科学团队提出了一些有趣的问题，现在研究负责人想讲述一个她发现的故事。

她首先创建了一个虚构的客户，代表他们在数据中看到的内容。这位顾客在网上购买一切。有了网上商店，她发现在买跑鞋之前不能试穿是一件令人沮丧的事情。

因此，研究负责人讲述了一个故事，如果他们在几个较大的城市开设一些新的店面，该公司可以预计销售额会上升。数据科学团队使用其批判性思维技能来论证许多其他组织正在尝试传统店面。她创造了网站正在失去潜在客户的背景。她用“实体商店”和“云中的虚拟商店”做比喻在她的故事中，这位研究负责人说，她想从这两种类型的商店中获得最佳收益。然后，她谈到了公司创建这些店面并将顾客与这种新体验联系起来的情节。她遵循典型的“探索”情节的结构。她讲述了一个组织如何走向新的地方的故事。然后，她在当前网站和漂亮的新店面之间创建了一个非常清晰的对比。最后，她以行动号召结束了故事。她想让观众为这个新项目做一个预算。

她将这些元素结合在一起，激励观众做出改变。如果你是研究负责人，确保你的每个讲故事环节都以非常清晰和直接的行动号召结束。

摘要

在这一章中，你学会了如何通过关注有趣的情节、强有力的角色和令人难忘的细节来吸引观众。这为未来设定了一个清晰的愿景，帮助观众描绘出这个未来愿景的真实变化。你还发现了如何创造一个情节和未来的愿景。最后，你发现对你来说，保持真实并给人留下真正关心公司的印象是很重要的。在第二十四章中，你将学习如何避免讲故事的陷阱。

Footnotes 1

乔治·莱考夫和马克·约翰逊，《我们赖以生存的隐喻》(芝加哥大学出版社，2008 年)。

南希·杜阿尔特，《共鸣:呈现改变观众的视觉故事》(约翰·威利父子出版社，2013 年)。

这段引文也被认为是亚里士多德，霍皮人谚语，纳瓦霍人谚语，和美洲土著人谚语(未指明)。

二十四、避免讲故事的陷阱

讲故事的最大挑战之一是，要做到专业，你需要将数据呈现为一组原始数字。许多组织认为数据不言自明。数字的绝对力量会迫使你的观众采取行动。如果你的文化注重目标和遵从，这一点尤其正确。在这些组织中，你不需要讲述你的项目是如何在预算之内的。你不必讲述你已经完成的里程碑的数量。

当你在数据科学领域工作时，你试图传达比简单的状态报告更重要的东西。你在尝试发现新的东西。请记住，数据科学中的“科学”是关于使用科学方法探索数据。这种类型的数据很复杂，需要解释。您的读者不仅会向您的团队展示您精心设计的报告，还会帮助他们理解数据的含义。

想想你接触复杂数据的任何时候。也许你想知道天气信息，或者想知道候选人在即将到来的选举中表现如何。这两者都是复杂的数据问题，这也是为什么两者都经常不准确的原因。大多数人不会深入研究你的数据。相反，他们希望被告知一个故事。他们想听听你对这些数据的看法。给他们太多的数据不仅无益，而且可能会让人不知所措。

想象一下，你正在看一个政治节目，评论员拿出了四个条形图。他说，“如你所见，数据说明了一切。”大多数人只会换台而不看报道。数据科学也是一样。如果你的故事只是使用图表，那么你的听众会很快对你的陈述不屑一顾。一个好的数据故事使用报告作为配菜来提升大盘菜。

有几件事需要注意，以确保您不会过度依赖您的数据可视化。

检查您的演示文稿。如果你用幻灯片，你有多少？如果这是一个长达一小时的演示，而你有三十张幻灯片，那么你就不是在讲故事。你可能只是在展示数据。
检查准备数据所花费的时间。确保你的图表清晰非常重要。请记住，图表是你的观众最先忘记的事情之一。如果你想产生最大的影响，把注意力放在你的听众会记住的事情上。你的观众更容易记住一个清晰有趣的故事。

如果你的组织有非常保守的管理文化，可能很难讲故事。在这些组织中，展示图表并让经理来解释数据通常在政治上更安全。你可能想把自己描绘成一个公正的展示者。这种方法的问题是，如果你在数据科学团队中，你仍然要对结果负责。因此，无论他们认为什么是对你的数据的最佳解释，你都会受到牵连。在这些情况下，通过一个精彩的故事来表达你的观点通常是一个更好的策略。这样，至少你可以控制你的结果。

最后，新团队通常很难接受你可以从数据中创造一个故事。一些数据看起来就像没有生命的十进制数字列。对于那些团队来说，看着这些数字并对创造它们的活动进行逆向工程是一个真正的挑战。坦率地说，这是数据科学团队面临的最大挑战之一。避免这种情况的最好方法是使你的报告人性化。不要把一份报告称为“即将到来的消费趋势”相反，可以称之为“人们在买什么”这些小步骤可以让您更容易将数据视为反映真实世界的事件。

像任何技能一样，数据讲故事需要时间来提高。开始思考一个故事的关键特征，比如情节和冲突。然后努力以有趣的方式展示你的数据。随着时间的推移，你的故事会变得更加生动有趣。你甚至可以做出更强有力的结论和更大胆的解释。试着记得和你的故事和你的观众一起开心。它会改善你的故事，让你成为一个更有趣的故事讲述者。

摘要

在本章中，您了解了在讲述数据科学故事时如何避免一些常见的陷阱。一定要看看你的演示文稿，寻找你过于强调数据的警示信号。此外，要注意组织文化的挑战，这可能会使讲述有趣的故事变得更加困难。在第二十五章中，你将会看到如何将这本书的五个部分结合起来，在你的组织中做出一些真正的改变。

二十五、开始组织变革

组织变革管理是一个探索已久的领域。您已经掌握了在您的组织中开始数据科学所需的知识，但在本章中，您将学习一些其他工具，这些工具可用于帮助您的组织改变思维模式。

我在这本书的开头描述了我在 20 世纪 90 年代早期在西北大学学术计算和网络服务(ACNS)的工作。当时，办公室位于芝加哥市中心。每天早上，我从北边的红线乘高架火车到市中心的州立大街和芝加哥大街站。每次我走过这些北边的社区，我都会经过一栋有围栏的小院子的房子。栅栏后面有一只狗，每天早上我去车站的时候，它会抓我，抓我，叫我。这是我们的惯例。我和狗每天早上都分享的东西。我会走向火车，然后狗会抓啊抓啊叫。有时我甚至会看到它闪亮的棕色脑袋从栅栏顶上冒出来。

一天早上，这只狗异常兴奋。当狗把它的身体扔向嘎吱作响的木头时，栅栏板发出像扩音器一样的隆隆声。我看了一眼栅栏，然后回到我的热气腾腾的 NWU 咖啡玻璃杯。那条狗设法把它的一条腿伸过了船舷。然后，它利用这种杠杆作用在它的背上滚动，并以超强的力量翻过栅栏的一侧。带着些许失态，这只狗站了起来，似乎和我一样对它的成功感到惊讶。它带着一丝遗憾回头看了看栅栏，又看了看我。我们的目光锁定，在那一瞬间，我们意识到有些事情发生了变化。我们俩都不知道该怎么办。

当我看到组织进行重大变革时，我会想到这个故事。通常，所有的热情和努力都用在抓和抓来尝试新事物上。事实上，组织并不是这样变化的。大型组织通常不会被激情所感动。他们被对长期、实际改进的不懈追求所感动。

大多数组织无法做出大的改变有三个原因:

他们不理解这种变化。组织通常不理解新的数据科学思维模式的价值。关键人物对探索型和经验型组织的样子没有清晰的认识。他们不清楚旅程结束时他们的组织会是什么样子。因此，他们可能会有一些团队尝试新的数据科学思维模式。这些团队会尝试新的东西，但是他们没有一个前进的计划。没有人交流过组织变革的好处。
他们对自己的文化没有很好的认识。他们不知道数据科学的思维模式将如何融入他们更大的组织规范。他们还没有考虑他们的组织是否会接受这种变化。数据科学思维模式和您组织的运营方式之间可能存在很大的脱节。在实施数据科学变革之前，您需要对更大的组织文化有一个客观的认识。
他们没有真正的改变计划。该组织不知道他们需要采取哪些实际步骤来做出改变。他们可能理解数据科学的思维模式，并认为他们拥有正确的文化，但他们不知道如何将两者联系起来。这可能是一个巨大的挑战，因为在大多数组织中，用科学方法思考数据是一个巨大的变化。如果你不把它作为一个组织的变化，你会很快遇到不可克服的挑战。即使是受欢迎和被广泛接受的变革也不总是适合你组织的文化。广为接受的实践不一定对你的团队有效。如果你不像对待组织变革一样对待新的数据科学思维，你就真的有失败的危险。你可能会有一些创新，但是要做出持久的改变是很有挑战性的。

在本章中，你将学习不同类型的组织文化，以及如何识别你的组织文化。然后你会被介绍给一个资源，它会帮助你学会如何让你的组织克服对改变的恐惧。

理解组织文化

对于大多数组织来说，实施变革的第一步是更好地理解组织的文化。组织文化基本上是人们不假思索就去做的东西。前麻省理工学院教授 Edgar Schein 写了一本关于这个主题的很棒的书。他提出了一个更复杂的定义。他说，一个组织的文化是

"A pattern of sharing basic assumptions, which is learned by the team when solving problems, is effective enough to be considered effective and passed on to new members as the correct way to perceive, think and feel these problems."

他的一个关键点是，组织文化根深蒂固。这些是人们不问就做的事情。它们是一个团体学习和教导新成员的假设。这使得一个组织的文化难以改变。在一个组织中，人们有一个成功的模式。当新员工被公司雇佣时，他们会被告知这些事情，并被告知这是做事的正确方式。因此，这种“文化”被视为正确的工作方式，很难改变。业务分析师和项目管理人员都接受了他们组织的文化是完成事情的方式。在这种文化中，当有人想要扭转局面时，通常会被认为是倒退和不正确的。当你谈论一种新的思维模式时，尤其如此。

这就是为什么如此多的注意力放在抓和抓，并试图做出新的改变。这种策略的唯一挑战是知道当你开始实施这些改变时该做什么。当你真的让一些人FQ时会发生什么？在许多组织中，这种对话从未发生过。所有的努力都是为了做出改变。但是，在你做出改变后，有些人不容易接受新的心态，会发生什么呢？在你全力以赴抓之前，你需要评估一下你组织的文化。

幸运的是，有一个很好的资源可以用来识别你的组织的文化。这是一本由威廉·施耐德所著的《再造选择》。 ² 他创造了四个类别来帮助你识别你的文化。每个人关注的东西都不一样(图 25-1 )。这四种类型是:

图 25-1。

Customers who live near a gym

控制
合作
培养
能力

在他的书中，他提供了一份调查问卷，你可以在你的组织中传阅。该问卷帮助您确定这些类别中哪一个最能描述您的组织。类别可能会有一些重叠。你可能是一家非常重视能力的公司，但你也可能相当重视合作。这并不是说这些类别中的每一个都会包含您的整个组织。不过，你可能会看到一种明显突出的组织文化。

每一种文化都有自己的长处和短处。一种文化可能会欣然接受新的变化，而另一种文化可能会反对甚至是最明智的变化。关键是，一旦你理解了组织的文化，你就能更容易地决定有多少数据科学思维会扩展到你的团队之外。

控制文化

先说控制文化。这种文化有非常专制的倾向。把它想象成一个狼群。这类公司倾向于保守的管理风格，非常强调等级制度。控制文化中的每个人都知道他们为谁工作，谁为他们工作。在控制文化中，非常强调合规性。个人的角色是遵守其主管的要求。这些组织的负责人传达一个愿景，然后为他们工作的每个人都负责实现这个愿景。

组织中也有人确保每个人都遵从愿景。控制文化更喜欢员工呆在他们的职能范围内。个人一般不怎么走动。控制文化中的很多权威来自于角色和头衔。董事对经理有权威，经理对监事有权威。标题传达了权威的级别。

因为对合规性的强调如此之多，控制文化中的决策制定往往会非常彻底。在最高层有一种确定性的推动力。最高管理层或董事们想知道何时做出决定。他们希望为他们工作的人“签署”这个决定。在这些组织中进行重大变革的方法是让某个高层人士，比如首席数据官(CDO)或首席信息官(CIO)，来“赞助”变革。没有这个赞助者，除了你的团队之外，很难做出任何持久的改变。不幸的是，控制文化如此强调确定性，以至于很难让高层赞助者同意做出大的改变。大变革几乎天生就有风险。控制文化做出大的、有风险的改变的最常见的方式是当他们别无选择的时候。这些组织倾向于更加保守，组织中的规范有利于秩序和确定性。他们通常喜欢可预测的过程。这就是为什么许多这样的组织会倾向于在很大程度上依赖大型系统的地方进行变革。这些系统的建立是为了让每个人都知道他们的角色以及他们在更大的过程中的位置。

数据科学团队通常在控制文化中有困难，因为数据科学团队角色比控制文化中的角色更灵活。此外，根据定义，探索是不确定的。处于强势控制文化中的数据科学团队通常不容易获得数据或决策权。控制文化有利于组织中的功能区域和强大的部门壁垒。这使得这些团队中的项目经理很难突破数据孤岛。即使面临这些挑战，许多数据科学团队仍然在强大的控制文化中工作。控制文化在大型组织中非常普遍，这些组织可能拥有大量有趣的数据。在许多方面，具有强大控制文化的组织通常从运作良好的数据科学团队中受益最多。

能力文化

第二种非常常见的文化是能力文化。这种文化在软件开发组织中很普遍。典型的能力文化是这样的，一群软件开发人员创建了一个非常受欢迎的工具，而开发人员成为了事实上的管理者。这种能力文化是作为他们组织的一部分建立起来的。能力文化的领导重点是设定标准和创造任务。他们根据每个员工的能力水平分配这些任务。所以管理风格是非常任务驱动的。管理团队试图分析他们如何分配任务。这是关于谁将完成这项工作做得最好。具有强大能力文化的组织倾向于成为矩阵式组织。在矩阵组织中，一个雇员可能有几个经理。你可能有一个质量保证开发人员向质量保证经理报告，同时也向软件开发经理报告。这意味着你有很多想成为专家的员工，他们的大部分注意力将集中在专业化上。你不想成为一个太了解开发的质量保证开发人员。然后你的软件开发工程师可能会给你任务，你会很快不知所措。所以非常强调专业化。

在能力文化中，很多权力和权威来自于发展高水平的专业知识。这些组织的决策往往非常注重分析。这样的公司将一个问题分解成组件，然后将这些组件分发给不同的员工。他们将组织视为一个工程问题。通常，当工程师遇到问题时，他们会将问题分解成几个组成部分。这些组织文化通过推动大目标来管理变革。他们有一个大目标，并把它分解成任务，以便前进。他们倾向于非常专业，在这些能力文化中，有着强烈的精英意识。你可以以一个低级员工或实习生的身份进来，如果你专攻某一领域并发展出高水平的专业技能，你就可以在组织中步步高升。

拥有强大能力文化的组织也倾向于有一个非常紧张的节奏。它们并不总是最容易工作的地方。能力文化也很难接受数据科学思维模式。数据科学往往是跨学科的。你必须对统计学、数学、讲故事和编程略知一二。非常强调专门化的文化可能不容易接受这种方法。当你需要讲述一个好故事时，你不希望你的数据分析师拒绝帮忙。你也不希望你的项目经理和研究主管觉得自己没有资格问好问题。能力文化非常强调成为专家。这就是专业知识门槛高的原因。这可能是一个挑战，因为在数据科学团队中，通常是外人会给你一些最好的问题。

栽培文化

第三种文化是修养文化。这是所有四种类型中最罕见的。在这种以人为本的文化中，领导者专注于授权和帮助人们成为最优秀的员工。经理们喜欢确保每个人都开心。他们希望员工喜欢成为组织的一部分，并且非常重视员工调查。这些组织倾向于建立一个权威的轮子，以员工为中心，所有的资源围绕着他们。他们的每个经理都像车轮上的辐条。他们周围的人试图帮助员工弄清楚他们需要什么才能做到最好。

在培养文化中，非常强调表达自己。经理们关注员工的发展和成长。他们想培养每个人。领导层通常注重魅力。如果你在培养文化中是一个有魅力的人，你可以很快成为一个权威——即使你刚刚在公司从一个低级职位起步。

管理者专注于培养他人的优势。培养领导者通过团队的才能解决问题，从而在组织中上升。

在培养文化中，多面手的价值很高。你不想去敲别人的门，听到他们不能解决你的问题。

在培养文化中，你永远看不到的一件事是有人被困在这个系统中。你会发现，在培养文化中，对部门和过程的强调要少得多。此外，这些组织中的决策制定可能很困难，因为它是高度参与性和有机的。团队中的每个人都想达成共识。

千禧一代和 30 岁以下的人在这些培养文化中有成功的趋势。许多年轻的员工特别倾向于寻求共识。由年轻企业家经营的组织倾向于在这种培养文化中投入大量的价值，并且更有可能拥抱变化和适应新思想。他们认为改变是培养过程的一部分。他们有参与式会议，人们在会上谈论变革。然后，一旦他们决定改变对他们的公司有好处，他们会很快接受这种改变。在这些组织中，成长和发展是受到鼓励的，而且在这些组织中工作往往会非常有趣，因为人们可以自由地犯错误。

然而，这些培养文化的挑战是，他们往往在决策过程中行动缓慢。你可以想象，大集团要花很长时间才能做出大家都同意的决定。真正的栽培文化是罕见的。一些组织可能觉得他们有一种培养文化，但如果你仔细观察，你会发现他们并没有真正遵循许多关键的实践。许多这样的组织只是控制文化，带有一层薄薄的培养文化的外衣。

协作文化

第四种也是最后一种文化是协作文化。这几乎和栽培文化一样罕见。你真的不会在信息技术领域看到这么多，因为这不符合领导风格。这种类型的文化更多地出现在培训机构中。协作文化中的领导者往往是团队建设者和教练。他们的管理风格非常民主，但不像栽培文化那样随意。不太需要让每个人都参与进来，但你仍然有一群经理，他们紧密合作，提出有趣的想法。这就是合作的全部意义。这样的公司倾向于团队合作，而不是像你在控制文化中看到的自上而下的等级制度。他们仍然非常强调成为多面手。

合作文化和培养文化的最大区别在于，对于前者，权威来自于关系。有时你会在家族企业中看到这种情况。你越接近组织的领导，你的权威就越大。高层人员合作更加紧密。他们倾向于通过头脑风暴会议和一些实验来做决定。与控制文化或能力文化相比，他们更容易接受变化。如果组织试图接受数据科学思维，这将有所帮助。如果你有一种协作文化，你的组织接受这种改变并不困难。然而，协作文化可能会发现数据科学的一些关键组成部分相当困难。一个有效的数据科学团队必须有追求新想法和犯错误的权力。这种权威被下推到团队层面。协作文化仍然倾向于拥有高层的权威。他们只是比控制文化更民主一点。

识别您的文化

现在你已经看到了这四种不同类型的文化，你需要找出哪一种最符合你的组织(如果你还没有的话)。请记住，协作文化或培养文化更容易接受数据科学思维模式的关键组成部分。这些文化中的个人也更容易改变，因为他们在组织中已经有了成为多面手的自然倾向。

如果你有一个强大的控制文化，你的组织倾向于传统的大系统方法。这些组织倾向于创建每个人都知道自己角色的大型流程。在许多方面，这与你希望运行数据科学项目的小型、自组织团队相反。这些文化也常常难以接受科学方法的一些关键组成部分。实验和探索本来就是不可预测的。这些控制文化通常偏爱具有可预测结果的复杂过程。如果你有一个非常强大的控制文化，你可能想从几个独立的团队开始。如果这些团队成功了，你可能有机会进行一些更大的组织变革。请记住，这些文化通常最难改变。

如果您有能力文化，那么您的组织在尝试接受数据科学思维模式时可能会面临类似的挑战。许多科学方法是将事物分解成有趣的问题，因此团队可以通过这些问题寻找更大的见解。这与能力文化通常看待工作的方式大相径庭。他们把一个大问题看作是可以分解成任务的事情。这是非常分析性的，但不是经验性的。处于能力文化中的团队需要确切地知道他们将做什么来完成工作。这些组织也倾向于拥有高度专业化的团队。这个团队中的每个人都应该有自己的专长。从很多方面来说，这降低了团队的协作性。每个人都是各自领域的权威。同样，这使得接受数据科学思维更加困难。您希望您的数据科学团队能够提出有趣的问题。这些问题可能来自研究负责人，但也可能来自数据分析师甚至项目经理。团队中的每个人都被认为有能力提出有趣的问题。对于强大的能力文化来说，这可能是一个小小的变化。

做出改变

确定了自己的文化之后，你就可以开始做出改变了。关于组织变革的最好的书之一是《无畏的变革》。这本书确定了组织如何接受或拒绝变革的模式。你可以利用你所学到的关于你的文化的东西，并利用它来确定哪些模式最适合你的组织。即使在控制文化中，您有时也可以为以后的变化做好准备。这本书面向“无权的领导者”这些领导者在组织中没有任何隐性或显性的权力。因此，你不一定要成为首席执行官或董事才能尝试在你的组织中实施变革。

这本书非常适合引导你的组织改变思维模式。即使在一个强大的控制文化中，你也不一定要成为 C 套件中的主管或经理才能开始变革过程。你只需要有一个好主意，想要引入改变。这本书为变革领导者提供了 48 种模式。您可以混合和匹配这些模式，根据您组织的文化提出一个总体策略。

本书最有帮助的指南之一是组织变革的“神话”。这些误区中的一些可能会阻碍你做出改变的努力。最常见的是，“如果这是一个好主意，那么说服别人接受它就很容易了，”以及“实现一个新想法所需要的只是知识和一个有效的计划。”另一个想法是，如果有人对改变持怀疑态度，你可以超越或忽略他们。这本书为你提供了如何应对怀疑论者以及如何倾听他们的策略。你不应该忽视你的怀疑者；他们可能是对的，看到了你看不到的东西。

这本书指出的另一个神话是，你可以成为组织中的变革推动者，独自工作——仅仅是你的知识、魅力和幻灯片的力量就足以做出改变。这本书试图表明的是，你需要建立一个能帮助你做出改变的团队。如果你无能为力，你能做的最好的事情就是和一小群人达成共识，然后推动改变。

最后一个误区是，如果你让某人相信这种改变，他们会一直相信。这本书做得很好的一件事是把变化表现为一种杂耍行为，在这种行为中，你让某人相信变化是值得的，但你仍然必须不时地回到他们身边。在这种情况下，问他们是否还在船上，他们是否仍然支持改变。即使人们接受了改变，接受了这个想法，他们也可能会滑回老路。当你试图做出大的改变时，对于控制组织来说尤其如此。

无畏的改变是基于人们以不同的速度接受想法的观念。这些人自然属于几个群体中的一个:

天生的创新者:当这个群体看到新事物时，他们是第一个接受改变的人。你会从数据科学的角度看到这一点。你组织中的一些创新者会对使用科学方法来更好地理解你的数据非常感兴趣。
早期采用者:这个群体感兴趣，但他们想听到更多。他们可能认为这是一个好主意，但没有创新者那么积极。
早期多数:这个群体是最大的一块。他们认为这个想法很有趣，但在加入之前会等着看别人怎么说。
晚多数:这一组说，“好吧，如果每个人都同意，我也同意，但我真的不想成为第一个。”
落后者:这些人会说，“我真的很喜欢现在做事的方式，我不明白为什么我们需要改变。”

当你考虑大规模的组织变革时，人们以不同的速度接受变革的想法是有帮助的。你正试图转向数据科学的思维模式，这通常是文化的一个重大变化。这就是为什么你经常想要确保你得到早期多数人的支持。你可以利用你的创新者作为招募他们的一种方式，并试图获得足够的共识，这样你就可以推动你的敏捷转型，并获得一点动力。

另一件要记住的事情是，当你试图改变一个组织的文化时，你不仅要对人们的头脑说话，还要对他们的心灵说话。你希望能够与他们交谈，让他们对改变产生情感上的联系。这允许你激励你的创新者，鼓励你的早期采用者。你不只是想谈论生产力。谈论您的数据科学思维，以此来更好地了解您的客户。甚至可以把它作为与顾客建立情感联系的一种方式。创新者和早期采用者通常在寻找一些有趣的东西。如果你能激发他们的兴趣，他们通常会在整个组织变革过程中一直支持你。

这本书也贯穿了你不能蹂躏人民的思想。你不能忽视组织中的愤世嫉俗者和怀疑论者。通常，愤世嫉俗者和怀疑论者是对的，也有他们的优点。我经常会在一些组织中看到变革领导者试图忽视这些人，把他们视为障碍。他们会把他们斥为不愿做出重大改变的落后者。如果你忽视愤世嫉俗者和怀疑论者，你很可能会遇到更多的问题。这些人通常是第一个指出挑战的人。你应该仔细听他们说话，理解他们想说什么。试着让他们相信这种转变是可以发生的，即使他们对一些作品持怀疑态度。你的怀疑者会想要权衡你的改变带来的好处和付出的代价。

摘要

在这一章中，你已经学习了不同类型的组织文化，以及如何识别你的组织文化。然后你被介绍给一个资源，它将帮助你学习如何让你的组织克服对改变的恐惧。在下一节，我会给你一些离别的想法作为压轴戏。

压轴戏

这就是了。我们已经走到尽头了。我希望你喜欢这本关于数据科学的书，并对如何组建团队提出有趣的问题并交付真正的商业价值有更好的想法。我试图说明的一个要点是，数据科学不仅仅是一系列实践。而是要有探索和经验主义的心态。有许多关于数据科学战术方面的书籍。我在这里尝试做的与众不同。我试图证明战术的寿命比转向更大的数据科学思维模式要短得多。如果你学习 R、Python、统计学或 Hadoop，那么你将拥有一些你需要的工具，但是仅仅使用这些工具并不能让你成为一个数据科学团队。记得把重点放在数据科学的“科学”上。这种数据科学的思维方式会让你以更有趣的方式自由使用这些工具。以新的方式思考数据远比下载新的工具和软件更具挑战性。新的数据科学思维是一个真正的挑战，但这将是一种更有价值和更有成效的数据处理方式。

我希望你喜欢这本书，并乐于提出好问题，收集见解，并从你的数据中学到更多。

Footnotes 1

组织文化与领导力，第 2 卷。(约翰·威利父子公司，2010 年)。

威廉·e·施耐德，《再造选择:让你当前的文化发挥作用的计划》(理查德·D·欧文出版社，1994 年)。

《经理 3.0:千禧一代重写管理规则指南》。美国管理协会 AMACOM 分部，2013 年。

Linda Rising 和 Mary Lynn Manns,《无畏的变革:引入新思想的模式》(皮尔逊教育，2004 年)。

第一部分：定义数据科学

Defining Data Science

在这一部分中，我们将围绕术语“数据科学”设置四面墙你会很容易找到认同数据科学重要性的人。很难找到几个对数据科学有共同定义的人。我们将从介绍数据库和数据科学如何使用不同的数据类型开始。然后，您将看到如何对这些不同类型的数据应用统计分析。

第二部分：建立您的数据科学团队

Building Your Data Science Team

是时候组建你的数据科学团队了。在你能建立它之前，你需要了解你需要什么类型的团队成员，如何组建团队，你的团队成员将做什么样的工作，如何合作。然后，像往常一样，你应该明白如何避免你可能遇到的任何陷阱。

第三部分：实现数据科学冲刺

Delivering in Data Science Sprints

您已经了解了什么是数据科学以及如何组建您的数据科学团队。现在你将知道如何开始这项工作。数据科学需要非常独特的思维方式。您将了解公司通常是如何工作的，并将其与数据科学团队的工作方式进行比较。然后，您将了解如何使用数据科学生命周期，并在团队“冲刺”中交付真正的商业价值

第四部分：提出伟大的问题

Asking Great Questions

乔纳斯·索尔克曾经说过，“人们所认为的发现时刻，实际上是对问题的发现。”正如你在本书中学到的，数据科学最重要的部分之一是发现伟大的问题。在本书的这一部分，你会发现如何做到这一点。要提出好的问题，你必须理解批判性思维(提出批判性问题)。接下来，您将了解如何鼓励人们提出有趣的问题，以及在哪里寻找好问题。

第五部分：使用数据科学讲述故事

Storytelling with Data Science

历史学家尤瓦尔·诺亚·哈拉里(Yuval Noah Harari)在他的著作《智人:人类简史 ¹ 中写道，我们的原始人类祖先并不是通过创造工具而成为现代人类的。相反，这是他们互相讲述复杂故事的能力。正是我们分享的故事，是从流浪的非洲猿到今天的智人的关键进化步骤。这些故事帮助我们形成了关于农业、正义和宗教的新观念。这就是为什么讲故事在我们最底层的交流中根深蒂固。当交流新的和复杂的想法时尤其如此。在这一部分，我们将谈论讲故事的基本方面。只有当您能够将数据与一些更大的想法联系起来时，您的数据科学团队的见解才能发挥作用。通常最好的方法是编织一个清晰有趣的故事。仅仅展示数据是不够的。为了让你的团队取得成功，你的利益相关者需要理解这些新想法背后的含义。一个好的故事将有助于弥合这一差距。

Footnotes 1

尤瓦尔·诺亚·哈拉里。《智人:人类简史》(兰登书屋，2014 年)。*需要页码

第六部分：总结

Finishing Up

嗯，那很有趣。我们覆盖了很多地区。首先，我们从理解数据科学的基础开始。然后你发现了如何创建数据科学团队。您还学习了如何将您的数据科学团队角色与您组织中的现有人员对应起来。然后，您看了一个新的数据科学生命周期(DSLC)框架，用于团队工作。您探索了随着时间的推移交付价值的短冲刺，这允许您调整工作以适应反馈并创建更好的见解。接下来，你学会了如何根据数据进行推理，并运用强烈的批判性思维。最后，您学习了如何讲述一个令人信服的数据科学故事。好的讲故事是你学到的东西和你能告诉别人的东西之间的桥梁。没有那座桥梁，你就不会得到有用的反馈，而这些反馈是你将团队的洞察力与真正的商业价值联系起来所需要的。

那么，下一步是什么？还有最后一个挑战。你需要了解你组织的文化，这样你才能帮助他们做出改变。

posted @ 2024-10-05 17:17 绝不原创的飞龙阅读(98) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

数据科学团队构建指南-全-

数据科学团队构建指南（全）

一、了解数据科学

定义具有多重含义的多学科实践

使用统计和软件

保存数据

清理数据

分析数据

发现洞见和创造知识

摘要

二、涵盖数据库基础知识

与关系数据库建立连接

使用 ETL 将数据放入仓库

放下和 NoSQL 的过去

大数据问题

摘要

三、识别不同的数据类型

用结构化数据保持简单

共享半结构化数据

收集非结构化数据

坐在大垃圾堆里

摘要

四、应用统计分析

从描述性统计开始

理解概率

寻找相关性

看到相关性并不意味着因果关系

预测分析的组合技术

摘要

五、避免定义数据科学的陷阱

关注能力

摘要

六、完善你的才能

透视数据科学家

看到不同技能的价值

创建数据科学思维模式

摘要

七、组建团队

利用研究线索提出好问题

向数据分析师展示数据

准备数据和选择工具

展示结果

与项目经理保持一致

使数据民主化

分享结果

加强组织学习

团队合作

摘要

八、开始工作

界定责任范围

研究

质问

履行

提交报告

了解孤岛并释放您的数据

在数据科学团队中创造洞察周期

摘要

九、像数据科学团队一样思考

不讲道理避免举报

拥有正确的心态

讲故事胜于报道

细节之上的交响乐

同理心胜过确定性

深入“意义建构”

摘要

十、在组建数据科学团队时避免陷阱

避开共识

让团队不要走神

摘要

十一、一种新的工作方式

回顾典型项目

从事数据科学“项目”

比较项目挑战

定义成功标准

摘要

十二、使用数据科学生命周期

探索 SDLC 或 CRISP-DM

使用 DSLC