数据科学项目管理手册-全-

数据科学项目管理手册(全)

原文:Managing Your Data Science Projects

协议:CC BY-NC-SA 4.0

一、数据科学团队战略

The Right Game Plan

如果你没有从一开始就计划好你要去哪里,你就不能指望对你的最终目的地感到满意。在商界,就像在其他许多领域一样,有一个明确的战略,并按照这个战略去做,可以确保你到达你希望的地方。

在数据科学的背景下,策略可以应用于许多不同的层面。将策略应用于整个组织、整个团队和特定项目之间存在明显的差异。

本章从较高的角度介绍了制定与组织整体目标相一致的数据科学团队战略的过程,创建了记录和传达该战略的文档,然后考虑了如何通过参考该战略来制定决策,从而最大限度地利用该战略。

本章的重点将放在大型组织中数据科学团队的成员身上。在这个角色中,虽然你不是需要将业务的宏伟计划放在一起的首席执行官或部门负责人,但作为你所在组织的领导者(所有数据科学家都应该认为自己是思想领导者,即使你不是任何人的经理),你仍然需要了解顶层战略计划,并对它是如何产生的有一些同情。

然而,如果你是一家咨询公司的数据科学家,尽管你可能会浏览一些部分,但你仍然会从战略联盟的总体主题中获得很多,以便更有效地向你的客户展示你的工作价值。

战略的理念

美国教授军事战略的一个关键方法是根据公式战略=目的+方法+手段,未来的军事领导人利用这一总结来分析过去指挥官的战役。 1

使用这个公式提供了一种分析战略如何根据目标和实现这些目标的手段而变化的能力,尽管我经常会混淆方法和手段之间的区别。

Arthur Lykke 在讨论方法和手段的文章中提供了一些军事目标的例子。它们包括保卫家园、收复领土和遏制侵略。举例来说,直观地说,不打一枪一弹就能表现出强大的军事力量,可以阻止侵略,但要收复领土,就需要入侵目前被敌人占据的地区。

在他的原始文章中,Lykke 描绘的隐喻是一个有三条腿的凳子,其中每条腿都需要相同的长度和角度,以便凳子保持平衡(因此防止被撞倒)。虽然我们会更经常地使用一个双面的比喻,但要点仍然是需要平衡元素以确保成功。

数据分析是一个追求细节特别有吸引力的领域,由此可以得出结论,对于数据科学家来说,只见树木不见森林是特别危险的。仔细明确地考虑全局是解决这个问题的一个可能的方法,也是了解在多大程度上追踪数据集细节的第一步。

尽管数据科学被大力宣传为解决世界上许多问题的答案,但有迹象表明,至少一些人已经开始觉得这个承诺没有兑现。这种差距的一个非常合理的原因是数据科学家的总体目标,无论是作为团队还是在项目中,可能都不够清晰。这可能会导致这样一种情况:数据科学家交付的项目在数据科学家自己设定的指标上非常优秀,但却无法实现组织的目标。

这让我想起了另一个军事格言,“战争太重要了,不能留给将军们,”这大致是一个警告,如果将军们没有与他们的政治领导人进行足够好的沟通,他们可以赢得战争和战斗,而不会为他们的国家获得任何有价值的东西。

赢得战斗却没有赢得战争

军事战略与数据科学战略有共同之处。人们已经认识到,军事手段经常被用来支持政治目标。这一点在越南战争快结束时美国上校萨默斯和北越上校杜的一次会谈中得到了鲜明的体现,当时萨默斯上校说“你知道,你们从未在战场上打败过我们”,而杜上校反驳说“也许是这样。但这也无关紧要。” 2

北越战略认识到,一方面美国拥有不可战胜的军事实力,同时只要有美国的政治支持,美国军队就只能继续参与越南战争,这实际上是为了避免对抗,等待美国退出。这被认为是北越成功的关键。

这似乎与数据科学没有什么关系。然而,将资源和能力与目标相匹配对于在任何领域实现这些目标都是至关重要的。在数据科学的背景下,这可能会决定你需要什么软件,你需要什么培训,以及招聘决策。例如,如果你不能使用新知识,那么学习文本分析课程就毫无意义。

或者,如果你的能力在某种程度上是固定的,就像北越的情况一样,这意味着要仔细考虑你可以承担什么项目——在某种程度上,即使你是一个内部数据科学部门,当前项目的成功也是保持未来项目安全的必要条件,因此接受成功概率低的项目很有可能适得其反。

工具:财富的尴尬

数据科学家有幸拥有大量不同的工具和大量的时间来掌握他们的方法,但是对目标的考虑却少得多。直觉上,这可能会让客户和用户失望,现在有迹象表明这种情况正在发生。

这么多可能性的另一面是,对于什么是标准工具集还没有太多的一致意见。关于什么是数据科学家,并没有太多的共识。因此,当专家们总是倾向于在处理特定问题的最佳方法上存在分歧时,这种困难对于数据科学家来说尤其严重。

不可避免的情况是,数据科学家可能来自统计学背景、计算机科学背景或其他一些看起来不相关的背景。强烈的战略意识为这个问题提供了一个解决方案,因为它允许您定义最适用于您的团队的数据科学家的概念,包括可用的技能和您试图解决的问题。

这种情况可能会因统计建模者在建模时需要瞄准非常具体的目标而加剧,他们通过正式的措施评估结果,而这些措施并不总是与组织或客户的需求有直接的联系。数据科学家有责任牢牢把握客户的价值理念。这将确保不仅模型或数据产品成功地提供了价值,而且客户也看到了价值。

Frank Harrell 在回归建模策略、 3 、中提供了许多策略,这些策略有效地暗示了两个正交轴——一个测量从无到优的预测能力,另一个测量解释从无到优的输入的作用的能力。他还建议采取互补策略,为预测和推断创建有效的独立模型。

这种分析提供了低层次的目标(建立一个即使不能被理解也能很好预测的模型,或者建立一个能被理解的模型,即使其他模型能更好地预测),但是没有考虑更高层次的目标。请注意,哈雷尔的文本提供了充分发展的战略,在提出目标后,他概述了实现这些目标的方法。

与弗兰克·哈勒尔不同的策略都是建模策略。然而,还有其他种类的低级策略需要考虑。模型在现实世界中有不同的用途。有时候他们是用来做决定的。其他时候,他们可能被用来帮助沟通或说服观众。

然而,与“沟通”一词相比,“可视化”一词在数据科学家的文章中的使用次数(指的是制作图表的工具,作为一种沟通方式),或者更重要的是,像“说服”或“说服”这样的词显示了数据科学家对他们所服务的目的的方式和方法的关注。更能说明问题的是,在一些文章中,数据科学工具——执行数据科学战略的手段——并没有讨论它们可以用来实现的目标。

前面的战略制定也意味着可用的工具和目标之间有着密切的联系——战略文本,无论其背景如何,通常都包括战略的例子,在这些例子中,目标是在认识到最少的可用资源的情况下精心选择的——而且,当战略家克服了某些关键资源的缺乏,仍然实现了他们的目标时,他们的独创性也经常被注意到。

受总体策略影响的另一个方面是您将决定使用哪些项目管理工具。虽然为每个项目选择不同的方法是可能的,但实际上,大多数团队坚持使用一种通用的方法,并将项目放在其中。我们将在后面的章节中研究一些备选方案,但是关键的一点是理解整个团队策略对于选择最适合的方法是必不可少的。

如果你是一个内部数据科学团队,你选择的项目类型也可能受到提供回报的紧迫性的影响。速赢的概念非常普遍,通常是建立高层管理信誉的必要条件,但这往往会以更大的成就为代价,所以如果你知道你被给予了更多的时间,你就可以朝着最终会更令人印象深刻的东西努力。

了解您的目标和实现目标所需的资源,可以确保目标在您的能力范围内,这是实现目标的先决条件,并确保您实现的目标确实有助于您的组织实现其目标。

对作为一种活动的战略规划的合理批评是,战略经常被搁置在书架上积灰,而不是为商业决策提供信息。然而,现实情况是,这些决定仍然会被做出——单个数据科学家和他们的直接经理不仅选择要进行哪些项目,还选择在这些项目上投入多少精力。

考虑到这个决定是不可避免的,你也可以基于这个项目对公司目标的有用程度,而不是更异想天开的标准,比如这个项目是否让你使用一个很酷的新的整洁的韵文包,或者仅仅是你当天的情绪状态。

正确地做到这一点意味着你可以在你的团队和组织中释放出大量的额外价值,因为当你成功了,并且被认为是成功的,你就获得了额外的许可和信誉,可以用来追求更远大的目标。不断取得成功,你就能在你的组织中保持这种许可和信誉。

此外,一个明确的战略应该在目标和为实现目标而采取的行动之间建立明确的联系。这种清晰的联系对于任何想要从工作中获得荣誉的人来说都是至关重要的,因为它提供了一种方法来解释低层次的活动在任何时期是如何对高层次的目标做出贡献的。

如果没有这些清晰的联系,你可能需要你的观众的善意和理解来让他们相信你的团队做出了你所相信的贡献。

数据科学在您组织中的价值

数据科学功能对公司有益的想法似乎经常被认为是没有证据的。至少,好处没有很好地陈述出来——假设数据科学家做的任何事情都会立即对公司有用。事实上,数据科学在很高的层面上有一些有用的方式。

陈述它们是什么使您能够确保您的数据科学职能部门正在做的事情与您的公司正在做的事情保持一致。正如很容易有一个数据科学项目在不帮助任何人的情况下实现其所有目标一样,也很容易有一个数据科学职能部门在不提高公司任何目标的情况下产生惊人的工作。

制定成功的数据科学战略的一个危险是,数据科学经理将从成功的数据科学家中选出。因此,他们很有可能拥有敏锐的战略头脑,但可能没有接受过任何正式的企业战略研究,因此无法与 MBA 毕业生进行平等交流,后者通常被聘为顾问或内部战略专家。

曾经有人说,战争太重要了,不能留给将军们去做——从数据科学家的角度来看,可以说商业管理太重要了,不能留给经理们去做。因此,数据科学家不仅应该学习企业如何运作,还应该学习用于管理企业的词汇,这样他们才能用正确的语言交流。

数据科学战略在公司范围内最明显的用途是研究公司的客户,特别是在消费者环境中,大量的客户允许进行统计分析。

与此相反的是风险分析,它不是在统计意义上的大客户群中识别不同的营销机会,而是分析相似的统计意义上的大客户群,以了解他们导致企业亏损的可能性。直觉上,在这两个领域可能成功的人的性格可能会非常不同。

第三种数据科学是运营数据科学,本质上是降低成本。这是一些公司试图利用数据科学来改善他们的业务运营方式。这可能是一种数据科学的方法,有助于非常有创造性的方法。它可能包括深入研究物流的人或使用深度学习的人识别无人机拍摄的照片中的图像,例如,杆顶变压器或架空电缆的照片,以自动维护这些资产,减少对人类进行检查的需求。

还有做决策和选择策略的目标。在这里,数据科学家是就可能的行动方案向高级管理人员提供建议的研究人员。这一领域的主要工具将是最优化和决策理论,有时结合贝叶斯统计。

这些类别并不神秘;然而,大声说出你潜意识里已经明白的东西总是有价值的。像往常一样,写下你认为你知道的东西有助于检查你是否真的知道它(令人惊讶的是,当你写下或说出时,你认为你知道的东西在你脑海中可能看起来或听起来是错误的),并确保你认为知道同样事情的其他人确实知道同样的事情。

召集团队制定战略的过程不仅是一个产生全新想法的过程,也是一个发现每个人一直在想什么的过程。

战略联盟

前面我提到了团队的策略需要帮助更广泛的组织实现其目标的观点。在商学院的行话中,这种想法被称为“战略联盟”(了解行话在谷歌搜索更多信息时很有用)。

战略调整被认为是一个难以掌握的领域,尽管它通常是从高级经理试图调整其追随者的角度来讨论的,而不是从更多初级人员试图向上调整自己工作的角度来讨论的。

组织战略在整个组织中传播的另一个关键概念是“级联战略”在这里,高级管理层创建一个策略,在组织的越来越低的级别上重新应用,每次都变得更加详细。

以我的经验来看,这种潜在的类比是有缺陷的,因为当低层是被动的时候,“级联”仍然起作用。以我的经验来看,要让这个过程正常运行,较低的管理层需要准备好接受——就像投手和捕手一样。

虽然通常会有一些口头上的说法,即每一级的高级经理将与他们的下属讨论战略,但太多的重点放在了更高级的经理将引导对话的想法上。在数据科学团队战略的情况下,通常情况是更高级的经理远不是数据科学专家,这是一条危险的道路。

总体而言,数据科学职能既要服务于组织的整体使命,又要被视为服务于组织的使命,这一点至关重要。要实现这一点,先决条件是数据科学团队的战略与组织的战略保持一致。

同时,您需要确保很容易证明这种一致性的存在,一个直观的方法是创建一个显示这种战略一致性的文档。

为什么对齐很重要

数据科学团队能够通过将他们的活动与组织的使命联系起来来证明他们对组织的价值,这一点至关重要,因为会有怀疑者强烈认为数据科学是浪费时间。

事实上,尽管这听起来有些矛盾,但当许多人,包括高级经理,都相信数据科学可以带来一切变化时,这仍然很重要,因为那种因为数据科学是最新时尚而采用数据科学的高级经理会特别善变。因此,对于不相信和完全相信的人来说,在他们的环境中有意义的真实结果是至关重要的。

虽然上述几点与您的工作在您的组织内被看待的方式有关(这仍然可能经常产生现实世界的后果),但战略一致性已被证明对整体组织战略的实际成功至关重要。

作者鲍尔和吉尔伯特在《哈佛商业评论》上发表的一篇著名文章表明,在许多方面,日常工作中的部门管理和职能管理比最高层管理人员的活动更能决定战略。还可以观察到,许多公司战略非常模糊,给个人留下了很大的空间在上面打上自己的印记。

因此,很容易在你的领域实施公司战略,无论是以坚持其意图的方式,还是以不坚持其意图的方式。以一种支持预期目的的方式真正努力地实施,是获得高层管理的信任和影响力的一种明确方式,并使您的职能领域对整体业务更加重要。

亲提示

鲍尔和吉尔伯特文章中使用的例子也有力地说明了个人影响力如何胜过正式权力。他们开头的例子谈到了一家工厂,该工厂是由直线经理在没有高级管理层批准的情况下,通过在支出权限范围内以增量方式购买组件而建成的。在这种情况下,有人有想法和影响力让其他人参与进来。作为数据科学专家,保持和利用影响力对于持续的数据科学成功至关重要。

有一种非常真实的感觉,不管你上面的任何数据科学战略,你为你的团队创建的战略将是在你的组织中实际实施的数据科学战略。

对自己的方向拥有这种真正的权力给了你很大的自主权,但如果公司的目标没有实现,这种自主权很快就会被剥夺。防止这种情况发生的方法是,确保你所做的工作恰当地支持公司的目标,并且让公司的高层知道你的工作支持这些目标。

如果数据科学团队有一个清晰的、记录在案的战略,充分解释团队的目标如何与组织的目标保持一致,那么这两件事就更容易实现。制定与组织一致的团队战略的第一步是仔细研究组织的战略文件。

使用组织的战略文件

大多数组织每隔一段时间更新一次他们的战略,并至少在组织内部发布俯视图版本(有时详细的路线图可能并不为每个人所用)。例如,它可能在共享驱动器的文件夹中,或者在公司内部网页上。给自己弄一份这份文件的副本,然后分析一下。

每个组织都有略微不同的总体目标和使命。战略文件描述了整个组织成功的样子。这可能意味着追求技术完美,也可能意味着做社会公益,如提高安全性,可能是保持高水平的市场份额,也可能意味着拥有最低的成本。数据科学团队面临的挑战是决定数据科学团队如何支持这些目标。

显然,这将根据目标和可用资源的不同而有很大的不同。在一个受成本驱动的组织中,战略可能集中在寻找自动化机会上。或者,当数据科学团队专注于风险分析时,团队的任务可能是追求现有实践的增量改进。

你可能认为你的团队的一些或全部日常活动和你的组织的顶层战略之间的联系是显而易见的,并且你的团队的所有成员都很清楚。这太好了——如果这是真的。通常情况下,错误地假设人们知道一些他们不知道的事情比故意让他们蒙在鼓里更具破坏性。

同时,如果你在一家企业呆的时间足够长,他们会改变他们的战略,如果你不这样做,你会转向一家新的企业——采用不同的战略。在这两种情况下,你的想法,如果不是团队中其他人的想法,关于任务是什么的想法,都需要改变——仅仅因为任务在第一天被理解,并不意味着你可以假设它在以后的任何一天仍然被很好地理解。

让你的团队集体讨论如何与你联系或回答组织的战略仍然是一件有用的事情,即使你觉得高层和团队之间的联系很明显。你可能相信每个团队成员都理解这些联系,但只有当你听到他们说出来时,你才知道。

你也可能认为每个人都同意这些联系是什么,但数据科学家是专家,任何五个专家的房间都至少有六种意见。同样,听到人们大声表达他们“知道”的东西意味着你知道他们在想什么,而不仅仅是猜测。

记录您的战略

策略很复杂,既不容易记住也不容易理解。有必要记录下他们的内容以供参考,并将其内容传达给目标受众。

根据详细程度和复杂程度,这些文档的结构和内容可能会有所不同。旨在用于团队而非组织的战略文档可能会采用相对较轻的方法。然而,为更大的人群创建的策略的某些部分在团队层面仍然是有用的。

首先,创建一个为你的团队定义任务和策略的文档是很有用的。这些在公司层面很常见,但在部门层面有时会被遗忘——但如果一个部门或团队不直接致力于销售公司的产品和服务或交付它们,一份使命陈述,可能伴随着团队价值观,对于定义团队如何适应更大的图景会很有用。

战略文件的另一个关键要素是计划本身,包括目标的细节、如何实现目标以及谁负责实现目标。鉴于本章的主题是团队目标与组织整体保持一致的重要性,直观的补充是关于团队的每个目标如何与公司目标相关联的陈述。

然而,请注意,在分析过程中迷失在细节中的诱惑同样适用于数据分析策略。一个经常被参考的短文档,省略了一些条目,比一本没有人看的大部头更有用,因为他们永远找不到他们要找的部分。我们将看到,最简单的工作模型通常是正确的——对于战略和其他类似的文档也是如此。

总体目标是提供一份可以经常参考的简短文件,并且不为不同的解释留下任何余地。它还应该适用于一系列可能的数据科学项目,并帮助人们了解何时以及是否要做项目。

你的团队的使命宣言

编写团队使命陈述的想法并不新鲜——在敏捷实践中肯定会遇到。使命陈述有各种各样的形状和大小,尽管它们在组织层面上最常见,但有时它们在团队层面上也很有用。

对于本质上不是数据科学或类似咨询公司的大型组织中的数据科学团队来说,情况可能尤其如此。在这种情况下,团队的使命陈述允许你将团队的目标与组织的目标结合起来。

一份好的使命宣言可以在你决定要不要做一个项目的任何时候大声读出来——如果它不适合使命,就不要做(如果你有那个权力的话)。如果你没有权力说不,写一个不接受工作的商业案例,即使发送它是不可行的。

同时,使命宣言的目的是将人们团结在一个共同的目标之下。与共同的目标同样重要的是一种共同的做事和解决问题的方式,这种方式可以让你的团队在你的工作中留下鲜明的印记。

该文档需要包括您团队的战略如何与顶层战略保持一致的详细信息。这不一定意味着它适合每一点,但它应该意味着它适合整体任务。

一份使命陈述可以有四个主要组成部分——使命、愿景、价值观和主要目标。您现在可能觉得,并最终决定,您的小团队不需要这么大的文档。然而,我要说的是不要对其中的几个太草率。

当调整这两个策略时,考虑你当前正在做什么,以及它与组织使命的契合程度。需要换吗?如果您要改变,您是否有资源来进行这种改变——您是否需要新的数据源,或者您是否需要进行新的培训?

团队的使命陈述,尤其是由整个团队共同创建的,可以成为一个极好的平台,用于定义团队期望如何帮助整个组织。以简单表达的东西为目标,尽可能让它变得容易理解,这样它就会被使用。

展示您团队的新战略

如果你把一份战略文件保密,它是没有用的。通过让你的团队参与进来,你增加了他们认同团队战略的机会,但这仍然不能保证。你需要和他们一起经历这一过程,确保他们真正理解这一过程,并知道他们在实现这一过程中的角色。

与你的团队成员开一次会是确保战略被理解的最起码的事情。在每个项目开始时,以及在定期的团队交流中,准备好讨论这个问题。确保你的团队成员很容易得到它,并鼓励他们经常参考它——最好的方法就是自己动手。

为了准备会议,考虑你为什么要这样做——回答什么为什么对解释来说至关重要。给出公司现状的背景。这是一个简单介绍公司和部门现状的好时机(但不是一个详细介绍分散你注意力的好时机)。这样,每个人都将从对外部形势有相同认识的立场上听到新战略。这也意味着,任何可能感到被遗忘的人都同时被带上了船。

虽然对您组织的概述需要简短,因此您需要有所选择,并根据特定时间点的重要内容进行调整,但您可能需要考虑一些一般性问题。

你应该预料到会有问题,而且你应该能够预料到其中的一些问题。也就是说,头脑风暴你可能会问的一些问题,并尝试将你自己放入你的几个员工的大脑中,并尝试预测他们可能会问的问题,以便准备一些答案,这应该是你准备工作的一部分。有些东西你可能希望放在主演示中,有些你可能希望放在一边,只问他们是否作为问题出现。

亲提示

将团队的不同部分分配给可能成为该部分冠军的不同团队成员。例如,您团队中的某个人可能是方法冠军或数据源冠军。这将获得那些特定团队成员的认同,并意味着你不必单枪匹马地推出战略。然而,当你试图吸引顾客时,你可能不认为在积极的会议上把这些角色强加给别人是个好主意。取而代之的是,与那些特定的人进行一对一的谈话,并把它作为一个机会来测试计划和演示的各个要素。

当你第一次提出这个策略时,要密切注意你的语气和整体陈述。关键是让你的员工兴奋起来,如果不是像在摇滚音乐会上一样兴奋的话。排练你的演讲,仔细听你的语气。它需要传达兴奋。

考虑一下一天中你精力最充沛的时候,以及一天中你精力最少的时候。不要把演讲安排在你从一个会议跑到另一个会议,或者有一个令人分心的最后期限要满足的时候,或者至少尽你所能避免这些情况,这样你就有时间做好演讲,然后从容地回答问题。

正如你的团队有一个战略,正如我们将在第二章中看到的,你尝试的每个项目也是如此,你的谈话也是如此。在你的头脑中要清楚你想通过这次演讲达到什么目的。在这种情况下,仅仅告知并不是全部——你要努力让你的团队和你一起为你未来 12 个月的工作方式(或你喜欢的时间框架)唱赞歌。

总的来说,你的演示在首次公开发布时的受欢迎程度将取决于你准备的如何,以及你能在多大程度上与自己的员工产生共鸣,以确保你手边有正确的答案。

将战略付诸行动

在用于决策之前,战略几乎没有任何价值。决策的大小并不重要,但在某些时候,应该期望战略被用来指导决策。

数据科学生命周期中的典型决策可能包括算法的选择;数据的选择;在数据清理上花了多少时间;花多少时间在特征工程上。虽然像使用哪种算法这样的问题部分是战略性的,部分是技术性的,但是以“在 X 上花多少时间/精力?”开始的问题可以被看作是完全战略性的。

另一个回归战略的重要时间是在招聘过程中。我遇到过一些招聘代理,他们对公司和候选人都不知道数据科学家是什么的问题的解决方法是简单地问“你如何定义数据科学家?”对任何和他们说话的人。一个清晰的策略,支持对团队所需技能的深刻理解,可以解决这个问题。

这一点很重要,因为一方面,高级管理层不太可能包括对数据科学有深刻理解的人,至少在今后几年内不会。因此,将公司的整体战略转化为数据科学团队的战略将取决于经理和团队领导。

另一方面,当出现问题时,高级经理的一个常见反应是增加管理。也就是说,如果没有迅速取得成果,或者至少不够迅速,一个可能的结果是,高级经理将试图更多地参与进来,并给出更多的指示,而不管这些指示在数据科学背景下是否有意义。

亲提示

干涉会导致更糟糕的结果,这一评论并不是对高级管理层的挖苦,而是对人性的评论。大多数人,如果他们看到有什么不对劲的地方,就会想去解决它。他们面临问题恶化的风险来自于统计质量控制手册中经常出现的警告 6 不必要的调整经常导致他们想要避免的糟糕的过程结果。

如果指示不恰当,这可能导致一个恶性循环,团队表现越来越差,而高级经理试图管理更多,使问题变得更糟。

所有这些都可以通过为您的团队设定与组织目标相关的目标来避免,但要使用对您的数据科学家有意义的词语。部分是因为人类有忘记和违背承诺的倾向,部分是因为数据科学通常是一项集体活动,所以写下这些话很重要。

制定这一战略时,要意识到建立支持的必要性。我们将在以后的章节中看到,实现最佳结果通常依赖于从你试图协助的领域的人们以及其他主题专家那里获得好的建议和信息。建立一个能提供早期成功的项目管道,有助于确保你继续获得这群人的好感,他们对你的整体成功至关重要。

表现出你是认真的——表现得好像你的策略很重要

没有什么比领导者的追随者看到领导者违背自己的信息更快地扼杀领导者的信息了。相反,传达策略的最有效方式是在你的追随者清晰可见的情况下采取行动。

因此,当你给自己分配任务时,一定要尽可能多地告诉团队你在做什么,也一定要解释你的工作如何适应整体战略。

还要确保你展示出你的决定与你日常活动的战略紧密相关。提及这是选择一个特定项目或避免另一个项目的原因,并将其作为绩效评估的一部分。

让你的团队认为你不关心某件事是他们也不关心这件事的捷径。行动比言语更响亮,更容易听到,这不是秘密。这与团队战略没有什么不同——如果你想让人们做某件事,最好的方式是你自己开始做,在你容易被看到的地方。

战略和文化

在这一章中,我们主要集中在书面策略上。然而,通常作为共享文化传达的非书面战略,可能是维护和沟通战略的重要方式。举例来说,如果一项战略作为一种决策工具取得了成功,那么当团队内部的文化做出与战略一致的决策时,几乎会自动产生最佳结果。

然而,如何做到这一点的细节很难在文档中捕捉到。在工作文件中记录文化的最著名的尝试可能是由罗马占领下的犹太人完成的。认识到他们的宗教和文化实践的书面记录——律法,只涵盖了这些实践的一小部分,他们试图写下他们的口头法律,并创造了米什那,表面上是“口头律法”,它远远长于“书面律法”(犹太圣经或基督教旧约的前五本书)。 7

虽然清晰地记录整个社会的文化是一项比组织中的职能团队更艰巨的任务,但关键是创建一个文档来定义文化可能是一项太大的任务。

相反,考虑使用为你的团队创造正确文化的惯例和仪式。这些将需要适合你的团队的构成和背景,并与你的团队一起更好地发明,使它们“有粘性”

还要考虑如何将与您合作最密切的其他团队融入数据科学团队的文化中。作为组织中受过一些最专业培训的团队之一,数据科学团队特别容易与其他领域隔离,从而导致“筒仓”效应。

最明显的补救办法是与你周围的团队进行更多的互动,有时在有组织或半组织的社交场合比在日常工作中更容易做到这一点。与周围的人以及团队内部的人交谈,以获得最大的效果。

考虑到需要尽可能深入地理解组织的目标,融入你周围的其他团队的好处尤其重要。不可避免的是,其他领域的人对这些战略目标的含义会有不同的看法——事实上,这是为什么执行顶级战略通常非常困难的直观原因。

保持与其他团队的联系对于确保您能够密切关注顶层战略对其他人的意义至关重要。因此,它确保您避免将团队的战略与组织中其他人不认可的顶层战略的解释相一致。

为摩擦做好准备——克服成功的障碍

在实施战略时,很多事情都可能出错。一些显而易见的事情包括战略沟通不畅,以及战略与组织目标不一致。显然,这些只是你可能会遇到的几个障碍。

这本书的一个假设是,现在有一些组织已经将数据科学纳入了他们的整体战略,但由于对数据科学能提供什么和不能提供什么缺乏了解,他们不会得到他们想要的结果。

战略实施中最困难也是最普遍的部分之一是变革管理。不需要改变的战略不太可能取得任何成就,不幸的是,由于包括数据科学家在内的所有员工都是人,所以会有人不想改变。

有许多变更管理的模型,你可能认为其中一些对于让团队成员接受一个策略的工作,也就是他们的工作来说过于详细了。然而,使用少量的常识性措施仍然可以产生很大的不同:

  1. 确保你解释了新策略的原因。

  2. 解决你解释时出现的任何问题。

  3. 保持积极的态度(你是高级管理层的大使)。

  4. 准备一些实现战略所需的答案,如培训、新工具或新数据。

虽然最终人们需要签署一个新的战略,因为这是他们的工作,但仍然有许多事情可以做,以使这个过程更容易。就像生活中的许多事情一样,很多事情都归结于知道会发生什么,并做好相应的准备。

作为一个过程的变革管理是管理和领导研究最多的方面之一,因此,有许多可用的资源。作为一名数据科学家,掌握这一特殊技能不仅对你领导自己团队的能力至关重要,对你的模型在更广阔的世界中被接受和使用的程度也至关重要。

我们将在本书中多次回到这一点——你的模型在多大程度上被你的客户使用和重视,通常不取决于模型本身的有效性,而是取决于你管理采用过程的好坏。因此,尽管这项技能是在如何正确介绍你的团队战略的背景下介绍的,但实际上,你在这个领域的技能对你的整体成功有着更广泛的影响。

最后,研究 8 表明,战略失败的一个最重要的原因是,战略是由高级管理层制定的,他们无法直接验证实施情况——相反,他们依赖中层经理来传达结果。

除了前面列出的简单行动之外,毫无疑问,最有效的方法之一就是让别人看到你自己接受改变。与一个没有与组织中许多员工一起工作的优势的高级经理相比,你有一个优势,那就是你可以被人看到每天都在积极地实施战略。

如果您是数据科学团队领导或数据科学职能领导,那么您将处于一个更幸运的位置,能够直接看到战略是如何在实地实施的。虽然您应该认真对待变更管理的挑战,但是有很多理由对实施感到乐观。

结束循环——最后检查您的结果

一个常见的错误是制定了一个战略,却没有评估其成功与否。相比之下,通过回到你开始时设定的目标并评估你的表现,你可以确保不会忘记哪些地方做错了,哪些地方做对了。同时,你可以调整你对自己能力的看法,调整你的目标。

在这个过程中的某个地方,你犯了一些错误,所以你应该收获它们的价值。在前进的道路上,你意识到有一个比你实际目标更好的目标——你应该再次调整。在这两种情况下,代价都很高,所以不要因为没有得到这些错误的全部价值而让自己吃亏。

与此同时,自从你写下最初的战略以来,情况已经发生了变化。有不同的工具,可能有不同的数据。如果不是一个完整的新来源,那么至少你现在有一个更大的你最初使用的数据样本,随着时间的推移积累的数据。

你的团队也变了——他们更有经验,更有技能,也更聪明了。应该有可能比进程开始时要求更多。

另一方面,也许一些团队成员离开了,整个团队的组成发生了变化。抓住机会,根据整个团队的新技能重新评估你的策略。

记录这些会议,它们将成为有价值的资源,不仅仅作为下一轮战略创建的输入,而且作为一个通用的“经验教训”库。你不会扔掉你的代码片段或数据集,你会把它们存档。用这些经验教训做同样的事情。

战略思维、计划和行动的生命周期

一个策略,就像一个模型,有一个有用的寿命,超过这个寿命,它就会被用尽或者磨损。这个过程的最后一步,回顾步骤,帮助你决定什么时候会发生这种情况,当你坐下来开始写新策略的时候,让你从应用旧策略中学到的东西中获得最大的收益。

除了与战略执行情况有关的经验教训之外,还有一个问题是战略本身是否继续符合目的,这部分取决于组织的高级管理层对顶层战略所做的任何改变。

在您的组织中可能有一个自动的过程来检查顶层策略,因此,会提示您查看团队策略。可能没有。

如果有一个过程,你可以利用它作为一个提示,将你的团队战略调整到最高水平,从而获得最大收益。如果没有流程,那就自己制定流程,定期留出时间检查自己的策略是否还支持顶层策略。

那段时间也是分享你的一些成功的绝佳机会。尽管你的组织很可能有一个正式的绩效评估流程,在这个流程中,你需要对自己一年来的表现做出解释,但这并不是一个让高层管理人员了解你的成功的好论坛。此外,由于他们是一对一的,你失去了在更高级的经理面前赞扬你的团队成员所带来的士气收益。

在你自己做回顾的时候,抓住机会收集你所取得的成就的亮点,并将其提交给高级管理层。这使您能够实现拥有与高层战略一致的定义良好的团队战略的最后一个重要好处——将您的工作与组织高层管理者心目中的组织成功联系起来的机会。

提升你的团队的工作并突出其价值的机会是这一切所导致的。创建一个协调一致的战略,将时间分配给最支持它的项目,并根据您的初始目标回顾您的进展,这一过程可以确保当您这样做时,结果只能是您的团队因其为整个组织带来的价值而受到尊重和赞扬。

评审过程通过对照目标检查结果并将结果反馈到战略规划的未来迭代的规划过程来完成循环,是确保团队努力的价值得到充分实现的最后一步。

摘要

西南航空公司的创始人赫伯·凯莱赫说:“战略被高估了。我们都有一个战略计划,这叫做做事。”这也许是真的,但是不太可能在没有指导原则的情况下,通过将几块木头固定在一起,一座房子就自然地出现了。如前所述,构成策略的决策是每周、每天或有时每小时做出的。如果没有战略,推理将是局部的,并且经常是任意的,与其他决策相隔离。有了策略,这些决策可以根据更高的目标进行验证。

一个数据科学家嵌入到一个主要不是数据科学咨询公司的组织中,需要使自己与公司的整体战略保持一致,有一项任务是将公司的整体目标转化为支持这些目标的数据科学职能部门的目标。这一进程对该战略的成功至关重要。

即使是从事咨询工作的数据科学家,也能从对客户更大目标的更多理解中受益。每个项目都有一个背景——即使客户明白你在一个项目上做得很出色,如果这个项目不适合他们的总体目标,他们仍然会觉得受到了玷污。

由此产生的数据科学职能战略既是一种决策工具,也是一种告知人们要做什么工作以及工作的重要性的工具。同时,它也是一种沟通工具,确保你能够解释每个项目和整个部门是如何支持整体业务的。

任何战略的成功不仅仅取决于它作为一项战略的质量,还取决于它沟通的好坏。让你的团队参与它的实现,并尽可能保持它的简单表达方式。

由于高级管理层本身很少是数据科学家,他们无法详细了解您所在领域发生的事情。因此,不要指望他们能够提供与你的职能完全一致的战略。

为了达到最佳效果,你需要有一定的自立能力,但这种自立能力是对组织目标的认同,而不是为了追求自己的目标。通过这种方式,你有了一个强大的基础来填补数据科学战略中的空白,而这是更高级的多面手经理所不能做到的。

当然,更重要的是,一个有效的策略必须被使用。养成一种习惯,根据你的战略来思考决定。当决定两个项目中的哪一个应该继续,或者哪一个应该得到最多的时间或者在你的团队中最有经验的人的情况下,考虑哪一个项目最有效地推进你的战略。

我们将在本书的后面看到,模型需要维护,以确保它们在整个生命周期中按照预期运行。策略也是如此。不仅如此,回顾一个策略提供了一个很好的机会来从你的经验中学习,并确保你学到的东西被捕获。

与赫伯·凯莱赫相似,有些人认为没有必要制定正式记录的战略。虽然必要性可能有争议,但拥有一个与公司目标一致的简单团队战略是一种很好的方式,可以确保你的工作不仅支持这些目标,而且可以被视为支持这些目标。

可能有一些职业可以立即看出它们如何支持整个组织的目标。凭直觉,航空机械师和飞行员可能很容易知道他们如何适应航空公司的结构并支持组织的目标(尽管这并不意味着这是有保证的)。

数据科学不是一个贡献如何立竿见影的职业——让我们面对它;有多少数据科学家,就有多少数据科学的定义。大声说出你的特殊定义并写下来会让你更加清晰。

一个策略有几个部分。它们可以包括一个使命陈述,一个包含预期目标的细节以及如何实现这些目标的战略计划,或者一套具有引导人们以某种方式回答某些问题的效果的文化实践。理解并理清这些因素会给你一个平台,让你不仅能取得更多成就,还能获得你应得的那份成就,从而继续有机会为你的公司做创新工作。

没有人有足够的时间去做每一件看起来有价值的事情,无论是作为个人还是从团队的角度来看。自己了解公司的目标,确保团队中的每个人都了解这些目标,并了解您的数据科学活动如何支持这些目标,确保您的每一分努力都能改善您的公司,并且您可以向团队以外的任何人解释您是如何做出贡献的。

在第二章中,我们将通过讨论单个项目的策略来接近金属。尽管有些理念会延续下去,我们仍然会看到大量的新想法。

团队战略清单

为了涵盖制定战略时的所有重要方面,有一个简短的清单来参考是值得的。下面是一个有用的问题的非详尽列表,你可以问自己关于你的团队的策略,以确保所有重要的事情都包括在内。

团队背景

  • 目前存在多少商誉?善意的程度通常决定了你应该履行承诺的时间范围

  • 团队中目前存在哪些技能?它们与通常可用的数据匹配吗?

  • 数据大部分来自哪里?用户或客户是否将它带给您,它当前是否存在于组织中,您是否期望通过 web 抓取等方式为组织有效地获取数据?

  • 根据以上内容,您通常会查看相同的数据集还是根据不同的场合查看不同的数据集?

  • 是否有公认的行业标准看待问题的方式,例如,广义线性模型是否被视为“黄金标准”?新方法有优势吗?

  • 你所在的行业对新方法的接受程度如何?如果你引进新的东西,会有什么样的反作用?

  • 您的组织中是否有资源来帮助培训用户,或者这将是您的责任?如果用户遇到问题,他们可能会向谁寻求帮助?

对齐

  • 我可以用团队的战略来解释数据科学如何帮助组织实现其目标吗?

  • 如果我遵循团队的战略,我会自动实现组织的目标吗?

  • 在团队战略的预期阶段,组织的战略是否稳定?

战略文件

  • 你的团队是否容易获得你的战略文件?

  • 文档的格式是否便于阅读?

  • 你有没有与你的团队成员交流新战略,并讨论它与他们个人工作的关系?

展示你的策略

  • 选择一个你和团队都尽可能少分心的时间

  • 预测最有可能出现的问题并准备回答

  • 在展示战略之前,就战略的特定方面与拥护者进行一对一的交谈

文化

  • 你们团队的仪式是什么?他们是帮助还是阻碍团队目标的实现?他们让团队对变化开放,还是强化了团队过滤泡沫?

  • 你的仪式包括你周围的团队和其他人吗?

按照你的策略行动

  • 考虑正在考虑的新项目是否支持团队的战略是标准的做法吗?

  • 你会调整招聘广告中的描述来吸引那些技能支持团队整体目标的候选人吗?

二、项目的数据科学战略

Meeting the Right Targets

在第一章中,我们讨论了数据科学团队的战略。然而,除非你为客户实现了某些目标,否则你无法从战略中获益。对于数据科学家来说,这通常意味着完成一个项目。团队的策略指导一些项目及其优先级,并且是项目策略的基础。然而,项目仍然需要它们自己的策略来恰当地定义它们的目标,以及可用的和允许的实现目标的方法。通过在每个项目的开始就确定这一点,你可以确保每个项目都实现了目标,更重要的是,你的工作得到了客户的充分认可。

项目管理

人们通常认为良好的项目管理对于项目的成功至关重要。你不能简单地开始一个项目,却不知道如何组织工作,以及如何估计完成项目和达到预期结果所需的时间和资源。

多年来,许多不同的过程被用来管理项目。这些过程都有一个共同点,那就是它们系统化了一种方法来决定做什么,估计做这件事需要多长时间,然后确保所做的是客户想要的。然而,它们在实现这些目标的手段上有所不同。

在最近的过去,许多软件公司和面向软件的公司(即,主要产品不是软件,但软件对产品的交付至关重要的公司)已经采用敏捷作为关键的项目管理方法。敏捷通常与正式的“瀑布”方法相反,在正式的“瀑布”方法中,需求是在项目的早期定义的,然后对需求的更改是困难的。

瀑布方法是为复杂的土木工程和建筑项目开创的,在这些项目中,最终期望的结果严重依赖于早期阶段,并且变更非常昂贵。例如,考虑建筑物的平面图如何确定所需的地基;一旦基础被浇注,回去做改变将是非常困难和昂贵的,因此,改变平面图只作出不需要不同的基础。

随着敏捷的兴起,有时使用敏捷原则似乎使得瀑布项目中使用的框架变得多余。然而,在不考虑其他人的信息和优势的情况下,不小心或天真地实施任何特定的项目管理框架,会有将婴儿连同洗澡水一起扔掉的风险。

精益软件开发 1 的先驱玛丽和托马斯·波彭迪克打破了两个神话,他们结合起来说明了这一点。第一个是“早期规范减少浪费”,第二个是“规划就是承诺”

这些神话是来自传统项目管理的想法,它经常被用来促进早期指定和创建一个致力于。如果你需要在设备交付前 6 个月开始挖掘地基,这些都是很重要的事情。

然而,制定计划和决定规格的工具仍然可以使用,同时保持计划可以改变的态度。早期的规范不一定是手铐,它可以只是你研究的结果。

因此,通过接受计划不是承诺,我们可以使用来自传统项目管理方法的最好的工具,尽可能多的具有适合我们情况的敏捷思维。

在接下来的材料中,我们借用了瀑布项目管理的材料,例如建议创建文档和建议尽早与客户交谈,我们并不要求对早期发现做出承诺,只是观察到在整个项目生命周期中与客户接触的机会可能不会顺利到来,所以在它们出现的时候使用它们。

许多传统项目管理实践的一个重要特征是强调正式的开始和结束程序,以确保遵循正确的路径,这是一种强调风险和质量管理的方法。

在传统的方法中,例如项目管理知识体系(PMBOK) 2 和受控环境中的项目(prince 2)3这项工作提前进行,并产生一组记录发现结果的文档。这种方法的缺点是僵化的项目经理会把这些文档当作紧身衣,拒绝允许它们在面对变化的环境或新信息时被修改。

好处是目标从一开始就很明确。同时,没有必要停止敏捷——简单地采用其他方法中的精华,从中学习,并将其应用到您自己的情况中。事实上,混合方法的想法在今天越来越流行。事实上,PMBOK 和 Prince2 都开发了如何在保持敏捷的同时使用这些方法的指南。 4

正如我们接下来将看到的,选择正确的目标并正确定义它是一项艰巨的任务。情况不佳时也可能很贵。在这种情况下,从尽可能多的领域吸取经验教训以避免这种支出是有意义的。

最终,只要做得正确,尽可能深入地了解客户与敏捷原则没有任何冲突。面对变化的需求时的僵化更多地源于人为缺陷,而不是有缺陷的过程,并且不是放弃过程的理由。

定义目标

从许多方面来说,一般来说,数据科学最困难的方面,也是任何项目最困难的方面,是选择正确的目标。就数据科学而言,作为一门数学学科,或者至少是一门由计算机科学和统计学等领域的背景使他们更喜欢从定量的角度看待问题的学科,从业者需要具有数字定义的目标。

相比之下,在构建相关业务问题的背景下,定性观点在初始阶段可能更有帮助。首先,了解客户想要什么样的答案是很重要的。例如,他们会用你的工作作为决策支持,在一些可供选择的行动方案中进行选择吗?

相反,他们自己会以定量的方式使用结果吗?例如,确定要分配的资源数量或持有的库存水平?

在许多情况下,模型的输出并不是最终的行动——它只是以某种方式促成了最终的行动。实际的最终行动是模型的实现或基于模型输出的决策。例如,虽然回归模型的输出是一组用于定义方程的系数,并且将该方程应用于新输入的输出是一列数值,但真正的输出是作为理解这些值的结果而做出的决策。

举一个更具体的例子,正确地估计做一件事所花费的人-小时可能是一个模型的显而易见的选择,但它可能不是最终的目标。目标可能真的是估计经过的时间(我什么时候能有?)或劳动力资源(我应该分配多少人?).因此,选择正确的因变量进行建模可能不是显而易见的,可能还有另一个变量,更容易建模,也更适合客户的需求。

硬币的另一面是理解客户为什么需要数据科学解决方案。他们想要比目前更高精度的预测吗?或者,他们会满意同样的精度,但希望利用计算速度和能力来实现更快的周转时间?

最后一个问题应该是有效的数据科学家方法的关键,因为显然花一两个小时确保您正确理解客户的目标比花 10 个小时优化服务于不同目标的模型更有用。

犯错的代价

部分由于数据科学是一个相对较新的活动,与其他学科相比,很少有数据科学出错的代价的例子。然而,在软件工程的重叠环境中已经分析了失败的成本。其中一些被代码完成 2 、、、、掩盖了,尽管这本书的重点是软件构建,但它本身却是决心避免浪费时间的数据工作者的绝佳资源。

《Code Complete 2的作者 McConnell 结合了一系列论文的结果,给出了在软件项目的不同阶段修复缺陷所用时间的潜在范围——毫不奇怪,在需求阶段之后修复需求中的错误会随着项目的进展而迅速爆发,直到修复发布后的需求错误估计是在需求过程中修复它所花费时间的 10-100 倍。

霍华德·雷法(Howard Raiffa)6更多地来自统计领域,他称解决错误的问题恰恰是第三类错误(类似于统计学导论课上常见的第一类和第二类错误)。Mitroff 和 Silvers 收集了许多这种错误的例子(并将这些错误分为有意的和无意的,尽管我们主要对无意的感兴趣)。虽然他们的许多示例问题太复杂,无法在这里复述,但下面给出了一个例子。

  • 一座大型高层办公楼的经理接到越来越多的投诉,抱怨电梯服务质量差。她决定请一位顾问来给她建议如何解决这个问题……[顾问们建议昂贵的工程解决方案]……幸运的是,酒店的一位房客是心理学家。 7

心理学家在电梯工程师失败的地方取得了成功,他意识到人们抱怨电梯的主要原因是他们感到无聊。她在电梯附近安装了镜子,让电梯使用者开心,这个问题就消失了(作者指出,如果他们几年后发明了这个问题,它可能是电视屏幕,而不是镜子)。

这个故事的寓意是,解决正确的问题至关重要。问题从来都不是电梯走得太慢,而是电梯的使用者在等电梯的时候无事可做。

工程师犯的错误是试图加快电梯速度,而不是缓解电梯用户的无聊,这是第三类错误的一个例子——用精确的解决方案解决错误的问题。在数据科学中,如果你用错误的目标创建一个高度精确的模型,这很容易发生。

更不可思议的是,可能有多个“正确的”目标和多种方法来为它们建立精确的模型。多个权利目标可能在它们需要的数据和对该数据建模所需的工具方面有所不同。因此,数据科学家能够识别提供最易处理的解决方案的正确目标,这是一个巨大的优势。有时,您不需要更好的数据准备工具,而是需要一种看待问题的不同方式,用一种不那么繁重的数据挑战来重新构建它。

建立精确模型的多种方法也可以在很大程度上决定向客户提供什么样的解决方案。例如,许多人已经观察到,为赢得 Kaggle 竞赛而制作的超精确模型与行业中常见的精简模型非常不同,特别是因为用于实现赢得竞赛的最后 0.1%精确度的过程通常计算量太大,无法在合理的时间框架内为客户提供答案。

大多数数据科学专业人士认识到,赢得 Kaggle 竞赛的大量高级神经网络和梯度推进机器不适合大多数现实世界客户的需求。

更微妙的地方是存在多个可行的模型,而对客户偏好的不了解意味着可能会选择一个在客户眼中实际上并不是最优的模型。这是项目风险的一个例子,因为它是一个威胁项目预期成功的风险,但它不是最常讨论的项目风险之一。

项目风险和意外后果

项目风险通常是从项目完成的风险角度来定义和检查的。也就是说,根据我的经验,典型的项目风险讨论将集中在按时或正确完成项目的危险上。例如,我们将在本章的后面讨论 CRISP-DM 数据挖掘方法——它从“可能延迟项目或导致项目失败”的角度来描述风险 8

当考虑以非常强的定义开始的项目时,这种定义是很自然的,例如,土木工程项目,其中项目团队的组成是按照规定的蓝图建造结构。然而,在数据科学中,事实上在许多软件工程环境中,目标要模糊得多。

一种更隐蔽的项目风险类似于第三类错误——项目按时正确完成,但没有给客户带来预期的好处。比这更糟糕的情况是项目完全成功,然后无意中引起问题。这可能是第四类错误,尽管米特洛夫和西尔维斯已经提出了第四类错误的定义。

由于意外后果而产生不利结果的可能性是机器学习系统安全性的一个方面。这是机器学习中的一个新的考虑因素,但在不久的将来可能会受到越来越多的关注。

最近的一个例子说明了意外后果的危害。一名澳大利亚妇女给参与定向广告的科技公司写了一封公开信,此前她生下一名死产婴儿后,她的社交媒体被婴儿相关广告淹没。在她的公开信中,她提出了这样一个问题:“如果(目标营销人员)能确定她怀孕了,他们不能确定她曾经流产吗?”

凭直觉,营销人员能够识别出最近流产过的妇女(他们甚至可能向她们推销咨询服务),但没有识别出她们的需求。虽然只能推测营销人员做了什么或没做什么,但没有刻意考虑错误放置的广告何时会产生负面后果是他们没有发现这一潜在问题的合理原因。

大数据—大风险?

大数据的趋势提供了另一个领域,在这个领域,关注正在解决的问题至关重要。虽然大数据确实可以提供较小数据集无法提供的解决方案,但人们也越来越认识到,较大的数据集也会带来更大的风险。特别是,具有许多可能的输入变量的数据集带来了将输入变量错误地识别为重要变量的特别高的风险。

因此,如果有一种回答客户需求的方法(找到更多的客户,更好地识别风险,等等。)在不使用越来越大的数据集来获得结果的情况下,这通常会是一个更好的结果,而且这还没有考虑到计算和编码时间方面的额外工作,这通常与大数据相比更适中的数据相关。

最后,大数据的最大问题是,它鼓励人们关注数据庞大的事实,而忽略了对客户问题的清晰理解。正如我们讨论过的并将进一步重申的,对客户问题的清晰理解应该始终是任何真正尝试提供价值的数据科学家的核心关注点。

定义目标

有许多方法可以最大限度地了解客户的真正需求。我们将回顾它们中的三个,并讨论它们在相关环境中通常是如何应用的。

这些方法中的每一种都有一个共同点,它们的存在都是为了扩大讨论,从如果允许默认,人们会自动做什么,到通过反射解决问题——人类的本性是尽快提出解决方案,而不会放慢速度来发现真正的问题,或者至少不会检查以确保真正的问题已经被识别。

因此,这些方法中的每一种都和其他方法一样存在,迫使人们在解决问题的过程中放慢速度,加快速度。

六适马 11 工艺最初是为在制造环境中使用而开发的。然而,在取得成功之后,特别是在通用电气公司,它最初是一家制造公司,但后来扩展到包括金融在内的其他领域,它开始被用于更广泛的应用。

六适马方法是阶段门控的,最初版本中的阶段通过助记符“DMAIC”被记住——定义、测量、分析、改进和控制。

解决问题的六适马方法成功的基础是在最初的“定义”阶段不遗余力地了解客户的声音。然后,这被转化为一个可衡量的目标,这是六适马团队的重点。这种方法有两个重要的结果。

首先,它确保项目的主题真正与最终用户相关。其次,它确保人们保持对可衡量目标是客户感兴趣的实际事物还是代理的理解,如果是后者,确保代理和客户关注的关系是透明的。

那么,我们如何正确地确定我们的客户真正想要的是什么呢?冷酷的现实是,他们往往无法告诉我们,尽管这并不意味着他们实际上不知道。

尽管六适马的开发环境与一些数据科学项目中的环境不同,但我们仍然可以从这种方法中获益良多。这一点尤其重要,因为可以说六适马最大的成就是采用了预先存在的质量保证工具,并将它们与理解质量项目真正目标的严格方法结合起来。

这种联系使六个适马用户能够确保他们能够向他们组织的其他人解释他们的成功——这是现代大多数公司的一个重要考虑因素,在现代,如果管理层看不到你增加价值,你可能很快就会被赶出公司。

六适马方法的第一个显著特征是定义阶段——设定目标和定义成功的地方——被认为是任何项目的真正基础。与此同时,并没有假设客户或委托人能够用容易帮助他们开发这类项目所需的明确目标的术语来表达他们的需求。相反,使用各种工具将客户知道的他们想要或需要的东西转化为更实际的东西,这本身有助于具体和可实现的目标设置。

通常在六适马环境中使用的工具旨在帮助实践者聚焦于对最终结果影响最大的问题部分,或者换句话说,具有最佳努力效益比的问题领域。

在这本书里,我们的目的不是给六个适马设计工具一个全面的或任何指导。我们将只看一个来展示这种哲学。我们还注意到,一般来说,六个适马声称的工具和技术并不是为六个适马项目而发明的——它们通常已经存在,并在广泛使用后的某个时间被确定为符合哲学,即使被推荐为六个适马工具使它们的使用更加广泛。

顾客的声音

解决问题的六适马方法成功的基础是目标是由客户的声音定义的。只有了解客户的声音,你才能找到一个目标,并将其转化为一个可衡量的目标,这成为六适马项目的重点。因此,定义阶段的很大一部分致力于了解客户的声音,而了解客户的声音被认为是定义项目的第一步。这种方法有两个重要的结果。

首先,它确保项目的主题真正与最终用户相关。其次,它确保人们保持对可衡量目标是客户感兴趣的实际事物还是代理的理解,如果是后者,确保代理和客户关注的联系方式是透明的。

那么,我们如何正确地确定我们的客户真正想要的是什么呢?冷酷的现实是,他们往往无法告诉我们,尽管这并不意味着他们实际上不知道。

在理想的世界中,我们可能想要使用六个适马从业者使用的工具,或者非常类似的东西。然而,我们处于劣势,因为六个适马从业者能够训练他们的(通常是内部的)客户期待某些工具,不幸的是,人们越来越期望数据科学家会进入,制作和实现一些模型,然后离开,留下轻松的利润。然而,这并不意味着我们不能从六个适马模型中的一些背后的思想中学习。

通常在六适马环境中使用的工具旨在帮助实践者专注于对最终结果影响最大的问题部分,或者换句话说,问题的某个领域,在该领域中,解决问题的容易程度与解决问题的益处之比提供了最有利的结果。

在这本书里,我们的目的不是给六个适马设计工具一个全面的甚至任何的指导。我们将只看一个来展示这一原理,以及它在实践中是如何工作的。和往常一样,也和本章介绍的其他工具一样,工具的正确选择取决于具体情况。

从理解顾客需求的角度来看,尤其是在更大的背景下,与六适马相关的最有力的工具之一是质量功能展开(QFD)。

质量功能展开起源于 20 世纪 60 年代的日本,后来由于在汽车行业的成功而流行起来。质量功能展开流程利用一个名为质量屋的图形来识别客户需求并记录其重要性,如图 2-1 所示。该图已被简化为一些更复杂的真实版本,以显示设计输入之间的相关性以及设计输入和客户要求之间的相关性是如何可见的。

img/477772_1_En_2_Fig1_HTML.jpg

图 2-1。

一个简单的质量屋图,通常用于质量功能展开。请注意,该图显示了设计要求本身以及设计要求和客户要求之间的相互关系。

六适马还采用了七个管理和规划工具,这是二战后日本的全面质量控制方法普及。 12

QFD 是一种允许用户运用系统思维和心理学来解决问题的方法,这意味着他们可以正确理解客户在哪里看到价值。它涵盖了“说出来的”和“没说出来的”需求,以避免开发一个完全符合客户要求的产品,而不是客户想要的产品。

关键信息很简单,顾客看重的不一定是我们认为她看重的。这也不总是客户最初参与时抱怨的第一件事。发现客户的真正动机可能很困难。

然而,由于这样做对于选择正确的目标至关重要,使用可用的工具来揭示用户的潜在动机应该是数据科学家过程中的一个重要部分。质量功能展开是在更广泛的商业环境中成功理解客户关注点的工具的一个重要例子。

CRISP-DM

“六适马”和“DMAIC 进程”在开发时并没有考虑到数据科学或数据挖掘。尽管我们建议至少考虑使用六适马的一些工具来确定客户的需求,但六适马流程不适合数据科学项目的一个重要原因是它是线性的。

CRISP-DM 13 很明显,这种方式的适用程度取决于用户希望如何向你展示自己;当决定一个特定项目的总体策略时,重要的是要考虑用户准备好接受提问的程度。

CRISP-DM 的迭代性质——它与敏捷哲学的共同点——使它成为思考数据科学项目的好方法。另一方面,由于它缺少其他方法中的一些客户焦点、项目管理和收尾元素,这些可能需要从另一种方法中借鉴。

CRISP-DM 循环可以在图 2-2 中看到。通过使用在后续周期收集的信息,使用 CRISP-DM 周期的数据科学家可以提高他们的第一次猜测。特别是,在数据发现的初始阶段之后,有一个特定的条款可以让客户进行进一步的讨论。

每个阶段被细分成更小的区域, 14 ,其中包含要考虑的重要领域的清单。例如,业务理解阶段是最符合本章的阶段,具有理解业务目标的明确目标,以及数据挖掘项目的成功标准。

然后在项目的后续阶段中引用这些内容。例如,在评估阶段,根据最初的成功标准进行评估,这是可以预料的。

然而,CRISP-DM 不仅仅是六个适马,而是非处方性的,因此没有给出关于哪些工具可以帮助实现期望的业务理解的具体指导。

img/477772_1_En_2_Fig2_HTML.png

图 2-2。

CRISP-DM 循环

与用户感同身受

六位适马从业者所采用的方法在很大程度上是一种工程方法。关键策略是定义一个有经济回报的具体问题。这适用于通常的六适马环境,在这种环境中,问题通常与劣质结果的特定成本相关,例如,需要返工或报废。

然而,对于可以通过数据科学抓住的每一个机会来说,这可能不是最好的方法。当机会与特定的低质量结果没有紧密联系时,设计思维方法可能是一个可行的替代方法。

在典型的设计思维生命周期中,开发人员在产生代表可能的解决方案的想法之前,与用户建立共鸣。这种方法允许实践者更好地理解客户的潜在或真正的问题,而不是他们可能提出的表面问题。

与用户感同身受的过程允许产生各种可能的解决方案,有可能产生一些非常天马行空的想法。我们在本章前面看到的米特洛夫和西尔维斯的电梯例子事实上完美地说明了这一点——心理学家考虑的是电梯使用者实际上想要什么,而不是她通常解决的那种问题。因此,她能够在技术解决方案不成功的地方提出成功的解决方案。

描述设计思维过程有许多不同的方式。其中之一是斯坦福过程,它使用五个阶段的过程来描述确保解决正确问题所需的步骤。 十五

  1. 移情:从你的用户那里收集信息。

  2. 定义:将用户信息转化为洞察。

  3. Ideate: 基于洞察力产生想法。

  4. 原型:为你的想法建立一个版本。

  5. 测试:验证你的想法。

尽管这些阶段是按顺序编写的,但这并不意味着它们需要按严格的顺序执行——迭代是可能的,也是可取的。

在我们的背景下,初始阶段尤其重要。与用户感同身受意味着停止强加你自己的想法,抛开你自己对这个问题在客户或用户看来是什么样子的假设。这正是心理学家在电梯问题中所做的。她问自己,“作为一名电梯用户,电梯到达的时间对我有什么影响?”

通过与用户共情,你将能够理解他们面临的实际问题,而不是你自己对世界的假设让你强加给客户的问题。

不要浪费一秒钟

和客户在一起的时间很宝贵。模仿其他行业的专家——医生、律师、管理顾问——运用最好的面试技巧,确保你在与客户相处的短暂时间里收获最多。如果你的客户是内部的,你有更多的时间,但是仍然很容易浪费时间,因此不能得到最好的结果——而且时间也不是无限的。

问题的一部分是说同一种语言。没有理由假设其他领域的专家精通机器学习、统计技术和行话。第二个困难的方面是如何在你的模型或其他数据分析中表现出自信,而不表现出傲慢。

即使不谦逊,至少也要表现出你不会把自己凌驾于你试图帮助的人之上,这样才能阻止他们拒绝你。如果你记得他们所拥有的关于他们问题本质的信息同样有用,但更难获得(世界上有很多数据科学家,但只有少数人像他们一样理解你客户的问题,他们可能都在同一个工作场所)应该很容易保持脚踏实地。

了解客户的统计或数据分析知识也很重要。当你的客户已经非常清楚中位数是多少时,向他们解释每一个基本的统计学术语肯定会让他们越位,就像用深奥的球形分布族的讨论来迷惑他们一样。

一般来说,你的听众很有可能已经获得了商业学位。他们很可能了解描述性统计的基础知识。像标准差这样的概念可能是模糊的或被遗忘的,但它们可能并不完全新颖。

不想成为该领域专家的人相对很少遇到机器学习算法及其术语,最明显的例子是数据科学家。

仔细考虑您是否需要告诉观众您的模型可能基于随机森林。在建立任何模型之前,不应该有任何必要进入那种细节——对于任何模型,用来建立它的算法是它最不重要的属性之一。如果你开始偏离主题,向不打算建立自己模型的客户解释特定算法的工作原理,你将耗尽他们向你解释业务的时间。让我们面对现实吧——他们几乎不可能有足够的时间向你解释清楚。

注意

在设计思维环境中经常听到的一个口号是避免解决方案。解决方案是指某人与用户或其他本地专家进行会议,旨在确定问题,并开始提出解决方案。这样做对会议来说可能是致命的,因为本地专家将停止解释他们的问题,要么关闭,要么提供他们自己的解决方案。

更好的是,在你报告了你已经建立的模型之后,再讨论可能的模型的细节。最终,你卖的不是一个随机的森林或一个神经网络,你卖的是降低他们的风险暴露,或者降低他们的一些成本的方法。除了需要确信您真的能做到之外,客户对如何做到并不感兴趣。

简而言之,与你的客户或用户的发现会议是一个很好的时机来记住这句格言“你有两只耳朵和一张嘴:按比例使用它们”,然后更少说话。人们经常想用自己的话来填补沉默——利用这一点。仔细想想什么时候需要引导谈话,往什么方向引导。

与客户的交谈几乎总能让他们对真正重要的东西有新的看法。有时候你需要做的就是坐在房间里听。其他时候,你需要把顾客哄到正确的心态,告诉你他们真正需要的是什么。

数据科学和棘手的问题

“棘手问题”有多种定义,但在提交给数据科学家的问题中,可以看到的一个特征是缺乏明确的表述。

如果您尝试应用传统的数据科学工具,棘手的问题可能是难以处理的(一些被认为是棘手的问题已经使用高级形式的决策理论至少部分地解决了,但这远远超出了我们的范围)。这并不意味着数据科学工具不能用来间接解决这些问题的至少某些方面。

然而,这确实意味着,当你被要求尽早解决一个棘手的问题时,识别这一点非常重要。一旦你知道这就是你正在处理的事情,你就可以决定一个适当的行动方案。两个主要的可能途径是传递问题,或者把问题重组为一个驯服的问题。

一个棘手问题的重要标志包括你与之交谈的客户未能就问题达成共识。试图确定问题的起点和终点可能是徒劳的。该问题可能是另一个问题的症状或原因。通过这种方式,这个问题改变了它的形状,从而挫败了给它划定界限的企图。这种变形使得任何模型或算法的使用都非常成问题。

如前所述,解决问题的一个重要部分是正确定义它。棘手问题的一个共同特征是它们不符合简单的定义。然而,事先决定立场有时会迫使问题进入可解决的状态。

通过以一种可接受的方式重新构想问题,它会变得容易处理。作为数据科学家,他们更倾向于数字解决方案或涉及自动化的解决方案。

事实上,假设有正确的输入,有一系列的问题重构方法被设计来帮助将棘手的问题转化为容易解决的问题。

Mitroff 在一篇论文中介绍了战略假设的提出和测试(关于前面提到的电梯问题)。这种方法的目标是理解支配问题的潜在假设。这是一个分五步进行的小组活动。

战略假设的提出和测试只是重新定义问题,使棘手的问题变得容易处理的一系列方法之一。现在至少有几种方法有相当长的跟踪记录来重组问题。虽然它们有一些共同的元素,例如通常最初被设想为一个小组活动(尽管它们经常被修改以供个人使用),但是方法之间的差异意味着你可以为你的特定环境选择正确的方法,并且有时可以用另一种方法的思想来修改一种方法。

如果问题被设定为一个棘手的问题,那么在项目开始时理解正确的目标可能会被蒙上阴影,并且可能看起来难以解决。然而,由于任何问题的形式通常由许多假设决定——有些很容易识别,有些不太容易识别——所以经常有机会以一种屈服于可用工具的方式来重述问题。

仔细的应用问题结构化方法通常会让你将不适定的问题转化为适定的问题,并在其他人未能获得牵引力的地方取得成功。

记录项目的目标

正如团队目标一样,项目的目标很容易被遗忘或误解。对正确信息的强有力的文档记录确保您不会因为对您已经发现的内容的简单误解而交付给错误的目标,从而在最后的障碍中失败。

除了定义您正在建模的目标之外,还有多个维度可能对用户很重要。明显的例子包括理解模型结果的容易程度、返回结果的速度以及实现解决方案的速度。记录这些方面也是有帮助的。

记录项目可用的数据源以及结果将被交付到的平台,以定义最终的格式也是有帮助的。

单独来看,这些信息可能看起来很琐碎,但是错过其中的一些至少会浪费时间,如果不是导致项目不能满足客户的期望。

不幸的是,文档的概念已经与传统的瀑布式项目管理范例产生了联系,并且给一个权力饥渴的项目经理一个他或她可以用来击败其他不幸的人的钝器的风险。正如在别处提到的,这种风险是由人的个性引起的,而不是由工具或过程本身引起的。用正式的需求文档打击你的项目经理更有能力开发敏捷仪式,浪费每个人的时间,把公司锁在无意义的闹剧中。

记住文档不必是正式的也是值得的。制定全面的计划是很好的,它将每一次头脑风暴浓缩成他们的基本智慧,但这也非常耗时。

幸运的是,我们生活在这样一个时代,文档不需要在活页夹中正式打印会议记录,没有人会阅读或访问。从像 Confluence 这样的 wiki 软件,到虚拟白板软件,有一系列选项可以在用户发现时捕获用户发现,或者将发现的结果提取到具有可操作见解的文档中。

考虑到事情经常发生变化,以电子方式保存文件尤其有用。当文档是硬拷贝的同义词时,进行这些更改会有心理障碍。随着客户需求变得更加清晰,现在没有理由不更新文档。在某些情况下,如果文档是正式的并且存在矛盾的风险,这将需要变更管理流程。

其他时候,尽可能如实地收集研讨会的结果并在必要时更新就足够了。

总而言之,了解客户的真正需求是一个艰难的过程。很费时间,而且很大程度上取决于客户自己的好感度。考虑到这一点,我们希望确保万无一失。

选择一个正确的目标并构建它,以确保数据科学解决方案的最佳结果,这是定义项目成功的基本要素,有助于您的团队保持作为专家问题解决者的可信度。然而,尽管正确的目标可能是最关键的因素,但每个项目团队中拥有正确的技能和尽可能好的数据集也是至关重要的,我们将在下面考虑这些因素。

方式方法—项目资源

在第一章中,我们看到战略被表述为等式“战略=目标+方式+手段”一般来说,在数据科学的背景下,我们的方法和手段是我们团队中的人和他们的技能,它们代表“方法”,可用的数据代表“手段”

虽然在这一章中,我们已经关注了目标选择不当的风险,主要是因为这是最少被谈论的风险,但是没有合适的资源的风险也是一个始终存在的危险,尽管它更有可能导致项目无法完成,而不是不恰当的项目完成。

但是,无论哪种方式,对于您作为数据科学家的声誉以及数据科学作为解决组织内问题的有效方法的声誉来说,风险都是真实存在的。为了继续保持你在公司内接受困难挑战的许可,你需要确保人们尽可能多地看到你的成功——仔细考虑特定项目在你能力范围内的程度是至关重要的。

我们将考虑两个方面——首先是您团队中存在的能力——方法。第二,由你支配的数据——手段。

方法—数据科学技能

与其他专业人员相比,数据科学家在这一领域面临的挑战更大,因为数据科学家的广泛定义建立了一种预期,即任何一位数据科学家都拥有任何其他数据科学家的技能。到目前为止,可能有一些数据科学家专门研究文本挖掘,而另一个专门研究真正的大数据的想法尚未完全渗透,这使得团队被要求做一些你专业知识以外的事情完全有可能。

与此同时,数据科学社区在某种程度上接受了这一观点,将相对不同的专业领域,如深度学习、自然语言处理和地统计学,同等地视为一个技能集的一部分。

在这种环境下,每个项目都有超出你能力的风险。这本身并不一定是一个难以拒绝的问题。你应该至少承担一些项目,这些项目将拓展你的能力作为其核心目的之一。当期望没有被重新设置以考虑到团队的能力并不完全在那里的事实时,问题就开始了。

这就是在 Prince2 等系统中看到的项目合同概念的重要之处——它们允许你同意你没有完全能力完成的项目,同时明确设定预期,即完成项目和预期时间表都存在更多风险。

当您想要扩展您的能力时,您需要识别那些至少在某种程度上不会引起注意的项目。否则,您的组织将继续保持与您更熟悉的项目相同的期望水平。然而,如果你能成功地维持一个稳定的能力拓展项目,你就能发展技能。

只要你清楚实现全部预期收益的能力可能还不存在,完成那些超出你能力一点点——或者有时远远超出——的项目是提高能力的好方法。重要的是确保每个人都清楚,对项目来说,扩展能力实际上是一个比名义上的项目目标更重要的目标。

方法——可用数据

应用于数据科学的方式方法等式的最后一部分是方法—数据。很明显,您并不总是拥有对客户想要的任何东西建模所需的所有数据。

敏捷和 CRISP-DM 都为这个问题提供了部分解决方案。在 CRISP-DM 周期中,业务理解之后的下一个阶段是数据理解。通过与项目发起人或客户协商,使数据理解阶段成为一个关卡,您可以对数据不够丰富或质量不足以支持项目目标的可能性进行管理。还要注意,在 CRISP-DM 过程中,在这一点上有重复项目目标的空间——将目标推进到更可实现的东西(从某种意义上说,是战略的本质)。

敏捷方法允许类似的事情,通过将数据的初始评估作为早期的可交付成果,为未来的可交付成果奠定基础。因此,类似于我们在 CRISP-DM 框架内将每个阶段视为可交付成果的方式,我们可以在敏捷内做类似的事情。我们将定义一个探索性的数据分析报告作为可交付成果,然后将模型的原型作为第二个可交付成果。

在任一点上,我们都可以选择结束项目,获得不同的数据,或者在每个阶段追求不同的目标。如果我们对原型满意,实现可以是它自己的一组可交付成果,每次都变得更加完整。在任何时候,基于模型评估的结果,您可以决定构建一个捕获或清理附加数据的阶段。

永远记住数据是有弹性的。也就是说,当您需要更多数据时,有时可以获得(即,从现在拥有数据的人那里购买或以其他方式获取)或收集(即,可以放置传感器或程序来捕获数据)更多数据。无论哪种方式,时间或金钱(可以被视为与能量和物质具有相似的等价性)通常是你和更多数据之间的唯一障碍,所以如果你的案例足够有说服力,你的组织通常会为你得到它。

当您考虑要将哪些数据合并到模型中时,请考虑对模型进行评分所依据的数据是否与构建模型所依据的数据质量相同。开始时,通常使用历史数据集来训练模型,并且由于该数据有时间被考虑和重新考虑,所以晚到达的数据有时间到达,并且数据的问题有时间被纠正。

相比之下,评分数据会更接近实况或实时。因此,可能会有更多的数据丢失,并且更多的数据可能是不正确的或者在其他方面质量很差。当您打算推荐一个实现模型时,请留意这类问题。

数据是任何数据科学项目的重要组成部分,因此在项目生命周期的早期评估数据的可用性对于确保您的项目达到预期结果至关重要。

然而,数据的数量和质量并不是一成不变的,经常可以找到或收集额外的数据,而不会产生太大的费用。建立正确的案例,数据就会出现。

漏斗计划

总有比任何人都能做的更多的工作要做。有比任何人都能做的更多的项目要做,但是一些现在不值得做的事情可能是未来最重要的事情。

在一个组织内工作的数据科学家可以从 project hopper 的使用中受益——有时可以在六个适马组织中看到。这个想法很简单,有时当你完成了定义阶段或业务理解阶段,就会决定还有其他更优先的活动要做。但是,简单地把已经完成的工作倒掉,显然是一种浪费。

相反,总结到目前为止已经完成的工作,并创建一个项目漏斗,至少为以后保留业务理解部分的大纲。

hopper 是一个非常好的地方,可以存储那些以提高技能为主要目标的项目。你可以记录下你希望通过做这个项目获得的技能,这样你就可以为其他项目开发新的技能,这些项目可能会及时吸引更多的关注。

例如,如果你看到一个高调的项目可能需要深度学习,你可以从漏斗中选择一个低调的面向深度学习的项目,以确保所需的技能符合要求。

独角兽数据科学家了解统计学、机器学习和编程的每个方面,越来越被认为是她一直以来的神话生物。验证团队成员是否具备执行重要项目的技能需要优先考虑。

确保你保持一个稳定的项目流,这个项目的关键目标是扩展你的团队的技能,这将确保当你需要的时候有正确的技能。与此同时,确保组织的其他成员了解哪些活动属于您团队的专长,意味着对您能够实现的目标的期望仍然是现实的。

project hopper 是一个非常棒的战略工具,它允许数据科学团队的经理一方面控制团队的工作流程,另一方面控制团队的技能建设和总体方向。通过正确地使用它,您将能够成功地为您的团队在项目上建立新的技能,而这些项目不是您的组织关注的中心,同时还能够完成满足您的组织的最重要目标的稳定的项目流。

project hopper 也是一个我们可以保存优秀项目的地方,这些项目缺少三个要素中的一个,例如,具有明确目标但没有数据的项目,具有伟大目标和可行数据集但需要团队中尚未发现的技能的项目,但在未来会成为伟大的项目。

摘要

项目风险通常是从风险的角度来考虑的,目的只是为了及时完成项目。很少情况下,项目经理和他们的项目发起人会适当地考虑完成一个不能解决客户问题或产生新问题的项目的风险。

有时候,制造一个新问题会进入唐纳德·拉姆斯菲尔德所说的“未知的未知”领域。我们不能总是防止这种情况发生,但我们可以通过仔细考虑客户的意见来降低这种可能性。

有很多方法可以做到这一点。六适马 DMAIC 流程强调在初始定义阶段倾听客户的声音,并提出了一些工具来更好地了解客户的声音,这些工具适用于一些数据科学环境。六适马中可用的最强大的工具之一是质量功能展开,它使用质量屋框架中的七个管理工具来展示。

CRISP-DM 是专门为数据挖掘设计的标准框架,它描述了业务理解和数据理解之间的迭代过程。这样做的好处是,数据科学家可以通过参考可用数据来完善他们的业务理解,展示数据发现有助于与客户的对话。

最后,与敏捷相关的设计思维方法促进了与用户的共鸣,并提出了另一套接近客户期望的方法。

所有这些都要求当你能够花时间和客户在一起时,最好地利用客户的时间。和其他事情一样,他们不可能给你无限的时间。因此,我们将介绍一些技术来确保时间得到最好的利用。

数据科学以能够解决最困难的问题而闻名。这种声誉是一把双刃剑,一方面,它意味着数据科学家有机会处理最具挑战性和最有趣的问题,另一方面,他们有很多权利开发自己喜欢的解决方案。

然而,这个机会的另一面是,有时给出的问题确实是无法解决的。一类臭名昭著的无法解决的问题被称为棘手问题。识别他们给了你一个拒绝他们的机会,因此你的名声来自于一个从一开始就无法解决的问题。或者,你可以尝试说服你的客户允许你把问题重新组织成一种可以解决问题的形式。有许多技术可以做到这一点。

虽然精心选择的目标对于数据科学工作的成功至关重要,而且对于成功的感知也至关重要,但它们不是成功的数据科学项目的唯一重要方面。在前一章中,我们还讨论了方法和手段——项目团队的技能和可用的数据——对于战略的整体成功也是至关重要的。

在数据科学的上下文中,方法实际上是团队的技能集,方法是可用的数据。在项目级别,需要特别注意团队是否有足够的技能来完成项目。这有时会导致你拒绝一个项目。

同时,尝试你现有技能之外的项目是发展新技能的最好方式。考虑到这一点,有时你会想要尝试明显超出你当前技能范围的项目。当承担这样一个项目时,重要的是要确保组织内的期望在可能的时间表和最终产品的可能功效方面得到适当的管理。

在本章和上一章中,我们已经了解了如何在数据科学团队级别和数据科学项目级别应用战略思维。在这两种情况下,目标都是确保您作为数据科学家的努力实现了目标并得到充分的赞赏。

在第三章中,我们将了解如何销售数据科学团队和数据科学项目,以便您能够最大限度地提高使用率,从而提高您所从事项目的有用性。更重要的是,能够销售你正在做的项目意味着他们将获得一个开始的绿灯。

项目清单

这份清单包含项目期间值得考虑的事项,分为三个部分——目标、技能和数据。

目标

  • 是否有监管要求,例如金融或保险模型通常的情况?它们的影响是什么,例如,它们是否限制了算法的选择,需要额外的文档,或者在模型的生命周期中需要额外的报告?

  • 模型多久更新一次?可能的答案从“从不”到每一秒都有。

  • 当(不是如果)会有什么后果!)模型不正确?什么都没有?有人丢了点钱?有人失去了生命(例如,可能是医疗诊断模型的情况)?

  • 将向模型提供多少数据?对于模型的结果,什么样的周转时间是可接受的?

  • 用户将如何访问结果?

  • 数据科学团队对终端用户有多少访问权限?在项目生命周期中,数据科学团队能够多次接触最终用户吗?

技能

  • 该技能目前是否存在于团队中?

  • 拥有合适技能的人也是可用的人吗?

  • 如果项目没有完成会有什么后果?

  • 项目紧急吗?

  • 雇一个临时工有多难?雇用一名临时工会给项目造成多大的延误?

数据

  • 团队以前处理过这个数据集吗?

  • 数据的来源是什么?在您开始探索数据集之前,您认为数据集质量良好的可能性有多大?

  • 数据多了会不会得到更好的结果?收集更多数据要花多少钱?需要多长时间?

  • 如果您将这些数据合并到您的模型中,那么在模型实现时,您是否有权限使用这些数据?

  • 当您实现模型时,数据的刷新频率是否与您需要刷新模型的频率一样?

三、数据科学销售技巧

Getting Your Project Adopted

到目前为止,我们已经看到了如何使我们的目标与更大的组织保持一致,以及如何制定一个发挥我们优势的战略。然而,在日常生活中,我们不能假设人们会采纳我们的想法或实施我们的项目——即使他们提出要求!有时还需要提醒他们,我们就在那里,数据科学也在那里,随时准备解决他们的问题。

销售数据科学项目和想法

销售艺术似乎经常被数据科学课程和无数为新兴数据科学家撰写诱人文章的博客作者和作者所忽视。通常,当阅读有关数据科学的内容时,您可能会有这样的印象:构建一个准确度很高的模型,然后构建一个数据管道来为其服务,这是工作的起点和终点。

事实是,要被允许建立并实现一个模型,你很可能需要向沿途不同关卡的人推销你自己,你对模型的想法,然后你的实际模型,通常在每个关卡都有不同的人群。

数据科学作者通常将通过这些关卡的任务简化为讲故事,而有效的讲故事确实是成功的关键。然而,除了讲述您的数据分析的基本故事之外,要让利益相关者相信您有能力发现他们问题的解决方案,然后让他们相信您的提议就是解决方案并且应该实施,还有很多事情要做。

在本章中,您将学习如何为客户量身定制销售技巧,如何销售您的模型,如何销售您的团队,以及如何销售数据科学作为组织问题的通用解决方案。我还将探讨在项目的不同阶段,你的推介应该如何变化,以及如何通过讲故事来推销你的项目,而不仅仅是解释你的数据。

除此之外,我们将讨论营销数据科学艺术以及您自身的必要性,以确保您的解决方案被视为解决您的客户或您的组织的问题的关键。

贯穿这一章的一条关键线索是,你需要超越纯粹理性的数学论证,考虑你试图说服的人的情感需求。尽管这可能具有挑战性,但它将使你的论点走得更远,因此最好地利用你可能更习惯的精心制作的理性论点。

掌握说服的感性一面,结合理性一面,在让你的模型被采用时,会给你很大的优势。

销售您的数据科学项目

无论你的数据科学项目有多伟大,如果没有人想要,它都是徒劳的。如果我们不能让其他人相信我们的工作会改善他们的生活,或者至少有这种潜力,它就会一直呆在某个服务器上,直到它坏掉停止工作。

但是,告诉顾客为什么我们的工作会让他们的生活变得更好,正确的方法是什么呢?创建销售文档或演示文稿,列出我们的数据科学应用程序可以做的所有闪亮的新东西是非常诱人的。我们努力开发这些功能,每个人都会喜欢的,对吗?

不完全是。首先,很有可能你的目标受众不具备理解你所推销的东西的技术能力。毕竟,如果他们有你的技术技能,他们就不会考虑雇佣数据科学,他们只会自己做。当你创建一份销售文件时,你首先要做的是尽量减少对最新工具的引用,让他们知道你知道你在做什么。

下一个问题是,你不能相信客户意识到你的解决方案如何帮助他们走出目前的困境。此外,让他们替你做事是不尊重你的。因此,你需要确保你的推销在你打算为客户做什么和如何让他们的生活变得更轻松之间加入了点。

现在,我将重点介绍在实施前会议上向客户展示什么样的模型,您希望客户同意实施,从而投入更多时间和金钱。

这一阶段可能是最难克服的障碍,因为这是时间和金钱承诺从小数额增加到潜在的更大承诺的阶段。在内部销售的情况下,这可能意味着高管正在决定是否将项目从一个小型数据科学团队转移到一个更大的团队,该团队需要实施项目并允许项目在整个组织中广泛使用。

显然,在这种情况下,能够将您的模型的实现与解决您的客户正在经历的真实世界的问题联系起来是至关重要的,并且真实世界的问题对客户应该是重要的。在可能的情况下,你应该能够将解决特定问题与节省一定数量的钱联系起来。

当你在内部展示一个模型时,你更有可能找到一个合理的价格。同时,如果您在早期的发现会议中取得了成功,您将会意识到您正在解决的问题对您的客户有多么重要。

购买模型可信度的关键是结果对客户有意义。这意味着,不仅你的模型需要显示出很好的结果,而且你的客户也需要了解你如何评估你的模型,将你的评估与她的业务联系起来,并相信结果。

有许多可用的评估方法,它们的使用会在统计和数据挖掘社区中引发争议。经常使用的评估方法(如接收器工作特性)因统计原因而受到批评,提出了更强大但更微妙(因此更难理解)的替代方法,但即使这些简单但有缺陷的方法也可能难以为商业受众所理解。

还有一些方法,如 lift 或 gain,与客户试图解决的业务问题紧密相关。在销售你的结果的演示中,这种类型的评估是理想的,其中数据和问题是合适的。例如,lift 与增加销售的营销目标明确相关。

如果这些指标不合适,开发适合问题的您自己的指标可能是一种前进的方式。在这两种情况下,最佳实践仍然是使用统计稳健方法进行评估,以确保正确评估模型的性能,而不必使用该方法来传达结果。

最终,你需要确保不要让完美成为好的敌人,当你向顾客和客户传达结果时,选择能被你的观众理解和接受的评估方法。

现在,尽管在几分钟的闪光中,在不知道如何得出结论的情况下,产生一个非常精确的模型是可以的。当然,你仍然可以用这种模型赢得 Kaggle。然而,不幸的是,说服用户只相信一个有准确性分数的模型是非常困难的。一方面,许多用于评估模型的指标对于人来说是不可访问的,这些人本身不是机器学习用户。另一方面,对许多人来说,准确性分数本身并不令人信服——这些人想知道,“它对下一批数据有效吗?”以及“好到不真实吗?”

自我推销

数据科学社区中的许多人更擅长做数据科学,而不是营销自己。这很自然——如果营销和促销是自然而然的,他们可能会去做那份工作。

然而,正如我们所看到的,在一个组织中,仅仅做好工作通常是不够的。重要的是你的好工作被看到和认可。除了您已经取得的成就,您还需要确保您的组织能够看到您能够取得的成就,或者如果您被给予足够具有挑战性的项目,您能够取得的成就。

无论你是不是团队经理,你都需要作为个人和代表你的团队这样做。在这两种情况下,你需要做的大部分事情本质上都是向上管理。这对于团队成员来说是显而易见的,但对于经理来说也是如此,因为通常情况下(专业数据科学业务除外),数据科学职能是一个相对较小的部门,隶属于更大的部门。

因此,团队领导将需要投入大量的时间来解释他们的部门对整个企业的价值,包括其他团队领导和他们的团队以及更多的高级经理。

你可以在图书馆的管理书籍区或网上粗略地搜索一下,找到很多关于管理的最佳方法的建议。显然,其中一些比另一些更适用于我们正在考虑的情况。由于篇幅的原因,我们将只看几个最容易应用的建议。

第一条建议是沟通。同样,对于我们将在下面讨论的单个团队成员,您需要让您的高级经理了解您的最新成就。比起你不想听到你的团队遇到的每一个问题,高级经理更不可能对你在取得成就的过程中遇到的困难感兴趣。事实上,除了草图,他们根本不会对如何做感兴趣。他们最感兴趣的是你的创新能解决的商业问题,以及他们需要投入多少资金。

为了获得比你高一级或同级的人的信任,你需要做的很多说服工作都是间接说服。那些职位上的人不向你汇报,如果你成功了,他们有时可能会感到威胁,他们不会总是回应你的直接信息,即使你试图解释的东西在逻辑上符合每个人的最佳利益。

如果你是团队经理,团队成员的个人成功会被视为你个人的成功。你可能会觉得这是你应得的荣誉,至少因为你可能一开始就把任务分配给了某人,给了他们完成任务的工具,并为他们实现目标铺平了道路。

同时,你需要为团队的成功获得足够的荣誉,以证明你是一个有效的领导者。然而,从长远来看,这会让你付出代价,因为代表你取得成就的团队成员会觉得被骗走了本应属于他们的赞美。

作为一个个人,你有更多的自由来为你的工作邀功,因为它通常会被团队作为一个整体来邀功。但是,有两个我经常看到的常见错误。一个是过早展示工作,另一个是不展示,或者拖得太久。

如果您是数据科学团队成员,您需要让团队领导了解您的最新进展。然而,她不一定需要看到道路上的每一个转折。当你达到了一个她会认为是里程碑的点,或者当你遇到真正的障碍时,更新她的信息是合理的。

在这两种情况下,你都需要设身处地地为你的团队领导着想,才能知道你是否真的在那里。你任务之外的人会把什么理解为前进了一步?你的团队领导希望你在寻求她的帮助之前先尝试什么?至少,她可能期望你已经在一些“通常的地方”寻求帮助——你的其他团队成员、文档、StackOverflow 等等。

同样重要的是,你要考虑表达自己想法的最佳时机。在周五下班前给你的经理扣帽子可不是个好主意。理想的情况是,给她一些警告,告诉她你想更新你的进展——即使你有一个开放的计划办公室,她就坐在你旁边。这样,你就有最好的机会让她准备好和你同时谈论和思考你的工作。

确保团队获得一些成功的荣誉是很重要的,因为当他们有需要解决的问题时,它会驱使企业的其他人来找你——它会驱使他们早些来找你,在过早的“解决”意味着你需要在被允许正确解决问题之前尝试不合适的解决方案之前。

正如团队成员考虑如何将他们的成就向上传达给他们的团队领导很重要一样,团队领导为她的团队成员创造展示他们工作的机会也同样重要。

定制您的信息

即使当你和来自同一个组织的人交谈时,不同的人扮演不同的工作角色也有不同的关注点。有时候,当人们换工作时,你甚至可以见证他们看待不同问题的方式的改变。

与此同时,向一群人展示也是很常见的,通常会有相互矛盾的关注点。不解决特定利益相关者所关心的问题的演讲是非常有害的,尤其是如果这个人在组织中特别有影响力的话。

威廉姆斯和米勒在《哈佛商业评论》上撰文,概述了五种不同类型的决策者,如果你想让他们相信你的想法是正确的,他们需要不同的方法。它们的列表如下:

  1. 慈善机构

  2. 思想家们

  3. 怀疑论者

  4. 追随者

  5. 控制器

每一种都需要量身定制的方法和不同的准备。总的来说,你需要明白你在和谁说话,以及说服那个人的最好方法。有时,你甚至需要考虑演示听众中不止一个不同的人,并确保你的演示与他们每个人都有交流。

然而,了解你的受众的这些方面并不是你任务的全部,仅仅意识到这些受众类型的存在并不足以确保成功。为此,你需要一个全面的指南来说服他人。

在《哈佛商业评论》中,康格还分析了当你的职位无法让你凌驾于他人之上时,说服他人的要素。

我改编了康格给数据科学家的建议。

  1. 建立信誉。对于数据科学家来说,这应该是一个简单的问题,而且“数据科学家”这个头衔确实会让你立刻成为当地的聪明人。然而,通常缺少的是你理解业务的可信度,更重要的是,你理解业务中其他人正在经历的事情。这里的成功秘诀是将您的数据科学专业知识放在一边,专注于您的业务知识和眼前的问题。

  2. 在共同的基础上设定目标。与建立可信度类似,这取决于应用您对业务和受众的了解,以确保您提出的解决方案既能满足业务需求,也能满足他们的需求。

  3. 情感联系。在某些方面最难,如果你已经养成了用事实和理由说服的习惯。这是一个双向的连接,你可以表达你自己对一个想法的情感承诺,也可以对你的观众的情感敏感。后者是两者中更有用的——学会读懂你房间的情绪状态会让你正确地调整你的陈述。

康格还提出了四种最好避免的说服方法:

  1. 试图通过前期的强行推销来表明你的观点

  2. 拒绝妥协

  3. 相信说服的艺术包括提出一个伟大的论点

  4. 假设说服是一次性的过程

其中,最后两个是我挑选的最有可能成为数据科学家问题的。在第一种情况下,数据科学家很可能是一个非常重视其论点内容的人,而不是其包装方式,在某些方面适合那些假装应用科学方法的人。有时候,花时间在如何包装一个想法上似乎有点可耻——让一个想法看起来比实际更好可能会被视为有点像信心诡计。

不幸的是,一个想法如何被接受很少与其内在品质相关。从各种规模的公司推向市场的一些想法中可以很容易地看出这一点——组织采纳了许多糟糕的想法,因此几乎可以肯定,他们拒绝了许多非常好的想法。

更常见的情况是,当创意能够对潜在观众产生强烈的情感吸引力时,它们会赢得胜利,而不是因为它们的逻辑合理。虽然这违背了许多数据科学家的意愿,但你应该考虑的是,你确信是高级逻辑想法的想法会输给另一条逻辑上低级的路径,除非向决策者提出正确的情感诉求。出于这个原因,你需要认真对待用正确的情感术语来表达你的想法。

看待争论情感方面的一种方式是,它可以被视为你说服努力的最后一英里。当然,论点的理性一面必须是合理的,但是需要注意论点的感性一面,以确保你的听众或客户不会拒绝理性地参与你的论点。在本章的后面,当我们谈到情感在赢得信任中的作用时,我们会看到更多这方面的内容。

考虑到说服的情感方面是为了确保理性辩论的成功,你需要在不破坏你基于理性的案例的情况下诉诸情感。从这个角度来看,一点点就可以走很长的路,就像烹饪中的盐或香料一样。

你可以像政治演说家那样,通过使用修辞手法来为你的论点增添一点感情色彩。通过个性化你的演讲来打破听众和你之间的障碍。用一个与你的整体信息相关的个人故事开始演讲是缩小差距的好方法。

总的来说,你需要致力于在观众和你之间建立尽可能多的联系,以便建立你们都在其中的想法。这样,观众将不再认为你是试图向他们推销的人,而开始认为你和他们是同一个团队的一部分,他们正在努力实现相同的目标。

受益于 it 销售

用销售行话来说,“推销好处”就是让潜在客户明白购买你的产品将如何改善他们的生活,这句话概括起来就是“没人想买床——他们想睡个好觉。”困难在于,在大多数数据科学场景中,与潜在利益相对应的问题是业务问题,如库存减少或销售成本下降,而不是人的问题,如睡个好觉。

因此,要完成从功能到益处的旅程,需要对客户的业务有所了解(尽管每个人都知道睡个好觉的好处,以及睡不好觉的可怕之处,但在床垫弹性和床结构的细节方面,了解的人要少得多)并能够解释其中的联系。最后一点至关重要,因为你的工作带来的好处太重要了,不能让你的客户错过。

所有这一切最终意味着,希望找到“洞见”的检查数据集的方法往往会失败,而且可能近乎危险。相反,您需要从您的客户想要实现什么、他们面临什么问题开始,然后才能看到哪些问题与可用于构建工具来解决问题的数据相对应。在这方面,古老的格言“你生来就有两只耳朵和一张嘴,所以多听少说”开始发挥作用。

如果你成为一名数据科学家,部分原因是因为你的气质更适合安静地分析数据,而不是热情地接待客户,那么销售的整个概念可能听起来令人生畏。不过,这听起来不应该太令人畏惧。这个建议同样适用于内部销售——向公司的其他部门销售——也适用于外部销售。如果你想在内部销售,应该有很多机会去发现是什么让你公司的其他人感到痛苦。人们喜欢谈论自己,世界上许多人都不会错过抱怨的机会。

如果涉及外部销售,很有可能正在使用或可能会使用团队销售方法。在这种情况下,您将作为首席销售人员的技术支持。让你的首席销售人员做他们最擅长的事情——培养关系,获得领导地位,介绍你的业务,让客户兴奋起来。

利用这段时间尽可能多地学习,找出客户生活中不尽如人意的地方,并搭配您的分析解决方案,使其变得简单。如果一个客户的生活已经够痛苦了,那么只要有人来解决这个问题,他们就会立刻掏出自己的支票簿。

对于管理顾问来说,面试指南是最大限度利用与客户相处时间的宝贵工具。然而,当你试图与内部客户保持持续的关系时,对他们使用这种方法可能会有点不确定和奇怪。

这并不意味着准备面试指南对你没有帮助。仅仅是写出来的行为就意味着你的大部分问题唾手可得,因为制定指南的过程会迫使你仔细思考你将在面试中提出的问题。

关闭

对于销售人员来说,有很多关于达成交易艺术的建议。对于数据科学销售人员来说,这种压力太大了,因为他们的目标是那些希望被销售的人。上门推销员青睐的战术很可能产生错误的效果;在任何情况下,如果确实需要对外部客户进行最终说服,这可能会由贵公司的销售专业人员来处理。

从数据科学家的角度来看,更重要的是要做的事情的细节要尽可能的明确。通常会有一段很长的准备时间,在这段时间里,各种可能性都被仔细研究过。在初始阶段,这通常是必要的,以说服潜在客户所有的问题都可以解决。然而,当他们签约时,现在重要的是将焦点缩小到一个可解决的问题,这个问题的定义也足够窄,可以提供一个可识别的在合同中承诺的解决方案。

这有双重好处,因为规模较小的项目在时间和金钱上花费较少。此外,如果你正在为另一家公司工作,很可能你试图说服的人需要说服他们自己的管理层,一个小的、有针对性的努力更有可能成功。

促进数据科学

数据科学作为一门学科,几年来一直享有“时髦”的特权地位。这是福也是祸。一件幸事是,那些期望自己的问题可以通过数据科学得到解决或缓解的人更有可能信任数据科学解决方案。这是一个诅咒,人们期望数据科学一键解决他们的问题,而不管是否有理由认为有很好的契合。

具有讽刺意味的是,对有些人来说,有如此精彩的证词会让他们更加怀疑。也许他们是对的——最近,数据科学已经接近其炒作周期的顶峰,炒作周期的内在要求是,被炒作的活动或现象获得了比其应有的更多的赞扬。

问题是,炒作变成了噪音,掩盖了被炒作的好处中最有用的“真实”部分。如此多的异想天开的主张被提出,以至于它们掩盖了明智和实际的主张。因此,当某样东西已经被过度炒作时,就像当它没有被过度炒作时一样,也有必要小心促销。

然而,小心翼翼的推广显然与炒作截然不同。与其说数据科学和人工智能(AI)可以改变世界,还不如说数据科学和人工智能可以改变世界,谨慎的宣传意味着证明数据科学在应用于正确的问题时是一种有用的工具。这意味着当数据科学不是正确的工具时要现实,当它是正确的工具时也要赞美它。

你现在遇到的任何人都将听说过机器学习和人工智能将改变世界的方式,他们中的许多人将已经下定决心,无论他们认为他们听到的是完全的废话还是对人类来说与第二次降临一样重要的预言。

炒作周期的双刃剑

每个人都听说过关于数据科学的名言。“统计是 21 世纪最性感的工作”,诸如此类。数据科学的炒作周期出奇地长,2018 年,Gartner 3 写道“围绕数据科学和机器学习的炒作继续对抗地心引力。”

应对炒作可能是各行各业的一个问题。《洛杉矶时报》的一篇文章描述了年轻运动员在职业生涯早期受到过多赞扬时面临的困难。事实上,这是因金钱球成名的比利·比恩所面临的困难的一部分,这与他在球员时代没有发挥出自己的潜力有关。??

数据科学的宣传不会以同样的方式发生在个人层面。当数据科学领域的人被挑选出来作为特定的摇滚明星时,往往是在他们建立了跟踪记录之后。数据科学家面临的问题更多的是整个行业的声誉领先于他们。

当你的观众接触了太多的数据科学炒作时,会出现两种相互矛盾的症状。第一种是对你说的任何话的厌倦反应;第二种是有膨胀期望的观众。

补救方法在每种情况下都是一样的——在新的地方重新组织讨论,迫使他们忘记已经听到的内容,从头开始重新考虑这个话题。

因此,当讨论可能使用数据科学解决的业务问题时,关键是要从不同于数据科学宣传方法中最常用的角度来看待问题。要避免的一个特定角度是“大数据的力量”,或者是一个足够大的数据集实际上使其他考虑变得毫无意义的想法。

相反,将注意力从那种大天空思维转移开,那是机器学习炒作的刻板印象,是从你的组织内可以取得的具体收益。不要试图与谷歌或优步等大型科技公司相提并论。

相反,要关注规模较小的公司所获得的适度的、现实中可复制的收益。从你的受众所在的行业中寻找用例,并坚持使用这些例子。确保您选择的用例与您的受众所面临的业务问题相关,并且收益可以用美元、增加的销售额、减少的工作量或与面向业务的受众相关且可理解的类似指标来衡量。

如果你苦于找不到这样的例子,像艾瑞克·希格尔的《预测分析》 6 这样的促进数据科学的书是一个有用的资源。这本书的唯一使命是告诉世界,数据科学是自晶体管以来最好的东西。因此,作为一名数据科学家,你可能不需要这种书。然而,在计划演讲或推介时,现实生活中的例子是一个很好的资源,尤其是在与不太熟悉的行业的观众交谈时。

虽然在“数据科学很棒”类别中有许多条目,但 Siegel 的产品以其对广泛行业的案例研究而闻名-第一版中的一个特殊部分拥有 147 个预测分析应用示例。

通过坚持这个计划,你至少会给观众带来他们真正想要的东西。但是,如果您成功地提供了一个相关的数据科学应用示例,您将能够让那些以无益的方式思考数据科学的观众重新考虑他们在自己的情况下如何思考数据科学的好处。

接近那些厌倦了大肆宣传的人的最好方法是让事情回归基本。你可以证明你是可以信任的——你不是蛇油推销员之一——通过用有分寸的术语谈论数据科学来解释它的真正好处。

品牌——个人和共享

可以说,数据科学已经从一个特定职业的描述符或分类器发展成为一个品牌。当然,任何一个职业的标签在某个时候都会变成一个品牌。律师和医生这两个术语除了描述他们的持有者所做的工作之外,还引发了关于什么样的人会做那种工作的各种刻板印象。

数据科学家作为一个标签,已经存在了足够长的时间来做同样的事情。然而,“数据科学”没有律师、会计师或工程师等专业机构的优势。除了制定专业标准和促进联网之外,这些专业的专业机构还承担了推销其专业的任务。

作为 21 世纪的“性感”职业,数据科学比其他职业更有优势。然而,这些优势在吸引新进入该行业的人时比在说服人们听取数据科学家的建议时更明显。近年来,我们已经看到会计和精算师等职业建立营销活动,以扩大他们的职业在他们能够提供价值的领域的影响力。

在后一种情况下,精算师等职业的专业团体在建立自己的品牌时所付出的努力,有可能在招聘和用户接受精算建议的情况下,收复数据科学的一些失地。

由于没有中央机构,这种活动不会发生在数据科学家身上,他们对自己职业的形象几乎没有控制权,这往往与人工智能和大技术混为一谈,这意味着不符合这种模式的数据科学家可能会发现他们很难满足人们对数据科学家的“预期”概念。

为了应对这一点,个体数据科学家需要既是数据科学品牌的大使,又要密切关注自己的个人品牌。在每一种情况下,你都需要对你想要表现的形象有一个很强的概念。

经常被引用的观点是,数据科学家是“比大多数统计学家编码得更好,同时比大多数程序员知道更多统计数据的人”,这对这个目的没有帮助,因为它与数据科学家如何有用没有关系。

会计师和精算师使用的职业品牌更好地反映了他们的价值主张。数据科学家的对等词可能是数据科学家会揭示你的数据告诉你什么,或者数据科学家是让你从他们的数据中获得最佳价值的人。

基于数据科学家的这些标签,数据科学家的“程序员/统计学家混合”概念有一点真实性。数据科学家是跨越两个世界的人,然而,程序员/统计学家的鸿沟并不是重要的鸿沟。相反,重要的鸿沟是业务和技术之间的鸿沟,数据科学家是跨越这一鸿沟的人群之一。

一旦你确立了自己对数据科学家的定义,并想出了如何在你的组织和更广泛的网络中推广这一定义,你就可以将这一定义延伸和深化到你的个人品牌中。

你既是数据科学家的典范,也是除了数据科学家之外的其他事物,因此,收紧你的数据科学定义,以确定你是哪种类型的数据科学家,同时为你自己定义一个品牌,包括你的非数据科学属性。

这意味着,相对缺乏一个专业机构来推动数据科学家是什么以及他们为什么有用的标准概念,这是一把双刃剑。拥有决定品牌的专业机构的专业人士不太能够以同样的方式决定他们的专业品牌来适应他们自己的优势和劣势。

此外,会计师和精算师等较老的职业发现,一半的品牌战是为了对抗不适合他们的先入为主的想法——事实上,这两种职业都必须对抗乏味的刻板印象。

决定了适合你的优势的数据科学的定义后,你可以围绕它建立你的个人品牌。虽然许多数据科学家可能是那种希望自己的工作质量为他们说话的人,但现实是,你不能让别人对你的印象取决于运气。

不要搬起石头砸自己的脚

在我们深入这个话题之前,我想提一下,如果你在谷歌上搜索“个人品牌”,你会读到很多关于你个人数字营销策略的建议。也就是说,他们谈论如何改善你的 LinkedIn 个人资料,或者如何有效地使用 Twitter 来获得更好的工作。从一个角度来看,这些都是重要的问题,但我将讨论的个人品牌更紧密地围绕着你的同事和客户对你的看法,因此与他们如何能够看到你的行为有更大的关系。

正如上一段所讲的,只要别人直接或间接遇到你,你的个人品牌就建立起来了。在当代生活中,这通常意味着通过社交媒体,但就在不久前,不是名人的人大多是直接相遇,或者在一两个距离之外通过其他人直接相遇。因此,你建立个人品牌主要是靠你投射给与你共处一室的人的形象。

在你自己的组织中也是如此,人们经常在会议上、在茶室里、在你的办公桌前看到你。人们在这些互动中看到的关于你的信息是什么?你摆放办公桌的方式是否体现了你想要树立的形象?同事、你的老板以及你老板的老板都会看到你摆放办公桌的方式——这是你给人的印象,也是你想要给人的印象。

另一方面,也许你的老板可以使用行政厨房,所以她永远不会碰到你留在水槽里的脏盘子。即便如此,你在和她的交往中,还是有很多机会损害你的品牌。

这些东西看起来微不足道,从某种意义上说确实如此,但这是建立你个人品牌的先决条件。如果你没有把这些部分做好,人们只会记得你是个懒汉。打下这些基础后,你就可以继续努力,让自己成为组织中值得信赖的顾问。总而言之,让人们认真对待你是很难的,所以不要在开始之前就因为明显的失败而输掉这场战斗。

选择退出拳击比赛

初次见面的人的一个自然倾向是以他们的职业来定义自己。我们经常回答“你是做什么的?”说明他们的职位或职业名称。然而,对于大多数可能的听众来说,一句“我是一名律师”的简单陈述并不能很好地解释演讲者是如何赚钱的。

一方面,大多数人都知道辩护律师和公司诉讼律师之间的区别,很多人可能都知道有些律师花很多时间在法庭上,而有些人从来没有涉足过。同时,大多数人对一个律师整天做什么没有很强的概念。

更糟糕的是,当你回答“我是律师”时,提问的人会把你放进一个盒子里,当你问同样的问题,听到“我是会计”时,你会做完全一样的事情。这是一场拳击比赛。

对于数据科学家来说,你的读者会倾向于“不知道你整天在做什么”这一方。回答“你以什么为生?”“我是数据科学家”可能会导致一个空白的外观。更糟糕的是,你已经失去了对你所留下的印象的控制——他们会根据他们对数据科学家的刻板印象把你放在一个盒子里。

如果他们知道数据科学是 21 世纪最性感的工作,这可能没什么,但这也可能意味着他们认为你符合他们对软件极客或统计学家的所有最糟糕的刻板印象,甚至更多。最关键的是,你不会知道他们落在了哪一个上面。

一个更好的问题是史蒂夫·乔布斯式的问题“你今天为(我们公司)做了什么?”回答这个问题,而不是你遇到的那个人提出的字面上的问题,可以让你发展出自己对如何帮助你的公司的叙述。

你甚至不会被乔布斯问题的严格措辞所束缚(这个问题是专门为了发现一个倒霉的员工最近为苹果做的事情而设计的)——你可以根据你在任何你选择的时间范围内为你的公司做的最令人印象深刻的事情来回答这个问题。通过在回答问题之前在头脑中重新构思问题,你已经控制了推广你的品牌的机会。

要在这一领域取得成效,你需要知道答案——在某种程度上,这意味着为你为你的组织所做的事情开发一个电梯间推介。

虽然电梯推销的想法经常与企业家联系在一起,最常见的是追求销售或金融,但基本概念可以很容易地适应解释你如何为你的企业或潜在客户的其他员工做出贡献的任务。 8

成功进行电梯间推介的关键是做好准备。你需要对你想要达到的目标有一个清晰的概念,所以在写出你的推销初稿之前,先写下你的目标。然后练习大声说出来,以获得一个长久的想法,并让它流畅。你必须在大约 30 秒内进出才能成功,你必须把它放在嘴边才能正常工作。

记得给自己录几次音,然后回放,以确保你的语调得体。尽量避免说话单调或语速过快,或其他问题,这意味着你听起来像有人在背诵购物清单,而不是用自然的声音解释自己。 9

电梯营销的想法很简单,它的应用不需要特别的天赋,只需要一些努力。然而,如果用在正确的地方,它可以是一种非常有效的方法,用来解释你如何融入大局,以及你所做的事情如何有利于更大的利益(同时给你自由来定义对你有利的更大利益)。

最起码,当你被问到“你是做什么工作的”时,你会有更好的答案。而不是“我是数据科学家”更重要的是,通过让你专注于如何做出贡献,而不是试图给自己贴标签,通过准备电梯推销,你将为你想考虑的任何其他类型的个人品牌活动打下坚实的基础。

赢得信任

在与你试图帮助的人的关系中,你能期望的最高境界是被信任。信任能确保你的组织在遇到需要你帮助解决的问题时尽早找到你,确保他们能公平听取你的解决方案并付诸实施,而不需要先证明这些方案行不通。

赢得顾客和客户的信任进一步发展了个人品牌的理念。虽然信任是在每一段新关系中反复赢得的,但这是比拥有个人品牌更深层次的参与,为未来的工作提供了更坚实的基础。

就像前面的部分一样,这需要着眼于促进人们信任你的团队,并相信数据科学是一种将有助于他们公司的职业。对你个人的信任或对数据科学理念的信任不足以确保他们信任你对他们问题的解决方案。

在后面的章节中,我们将会看到确保用户信任你的模型对于他们的使用是至关重要的。如果你的用户能够在个人层面上信任你,或者模型是由他们尊敬的、在个人层面上信任你的人展示给他们的,那么你就跨越了一个重要的障碍,让你的用户信任你的模型。

与此同时,让你的客户信任你比让他们信任你的模式更难——只是如果你成功地让他们信任你,回报是每次你想提出新模式时,你都需要重新赢得信任。

建立这种信任需要一段较长的时间,采用不同的方式。这里的要点不是您提供的模型通过获得良好的准确性度量而做到了他们在 tin 上所说的,甚至不是您提供的模型在显著改善组织的平稳运行方面获得了声誉。

著名的关于建立顾问信任的书《值得信赖的顾问》定义了个人信任的四个要素——可信度、可靠性、亲密度和自我定位。这本书的很多内容都与前两者有关,因为这些元素可以应用于统计模型,也可以应用于人类。最后两个真的只适用于人。

更一般地说, The Trusted Advisor 的作者热衷于指出,虽然可信度和可靠性有一个黑白分明的技术维度(这是我在本书其他章节中与模型相关的内容),但它们也有一个重要的情感维度,这不会很容易映射到模型上,但在试图赢得客户或潜在用户时,这对你的个人可信度很重要。

亲密关系可以被视为比可信度或可靠性更难实现。要变得可信,你只需要了解你的东西。要被认为是可靠的,你只需要在你说你会做的时候,兑现你说你会做的事情——从表面上看,这完全在你的掌控之中。与他人建立某种程度的个人亲密关系需要接受你会被拒绝的风险。

最后一个要素是与信任成反比的关系——**可信顾问的作者称之为“自我导向”,你的客户认为你越不倾向于自己,你就越能成功地获得信任。

*至少,如果你表现出只把自己的利益放在心上,你会发现很难赢得他们的信任。作者可以将这一因素称为“利他主义”或“他人意识”,以避免这种相反的关系。

虽然你可能在某些方面过于自我导向是显而易见的,比如只关心薪水或解决别人已经失败的重要问题的荣誉,但其他方面则更加微妙和有害。

后者中的许多可能会让数据科学家犯错——“渴望被视为正确”或“需要看起来聪明。”这本书是在智能手机变得无处不在之前写的,所以在 2019 年被视为对你的客户不够关注的最简单快捷的方式是缺失的——“phubbing”,或在与他人交谈时看着你的智能手机。

建立信任需要时间,你不能缩短这个过程。值得信赖的顾问作者提出了一个在解决特定问题时获得客户信任的五步流程。

  1. 参与:向客户展示他们吸引了你的注意力。

  2. 倾听:向客户表明你理解他们的问题。

  3. 框架:确定了根本问题。

  4. 设想:一个替代现实的愿景被勾勒出来。

  5. 提交:步骤达成一致。

这些步骤中的一些可以被视为设计思维过程的重叠或补充——envision 可以被视为 Ideate 的另一种说法。在某些方面,这本书的第一章可以被看作是参与和倾听的指南。

如前所述,可信顾问中强调的治疗元素经常丢失,并且可能对数据科学家来说更困难的是情感成分超过理性成分。他们对听力建议的一些解释可以说明这个观点。

作者确定了许多倾听的类型,他们还确定了你倾听的方式向你的客户传递的信息至少比你通过这个过程从客户那里获得的信息更重要。因此,倾听是一个机会——是的,是一个学习的机会——但不仅仅是通过你的举止和肢体语言来表明你站在你客户的一边,你关心她的成功。

如前所述,倾听有多种类型,书中列举的类型更多地是关于倾听过程如何影响被倾听者,而不是影响听者。例如,“支持性倾听”,正如所料,是让被倾听者感到支持的倾听。

然而,对于所有类型的倾听来说,最重要的是要避免打断说话者的思路,让他们在合适的时候讲述自己的故事。这可能经常感觉很难做到,因为我们经常认为我们已经听过这个故事,或者一个类似的故事,并急于投入其中。避免那样做需要练习。

诚实的事实是,一本书能解释的东西是有限的。学习如何做的最好方法是练习并接受你会失败,但也要接受当你失败时并不是世界末日。

推动你自己推进你的论点的情感部分,即使这很可怕,也将使你能够用数据科学解决更多的问题,因为你将能够赢得更多的人。从小处着手,确保你的推销针对他们的真正需求,你就能赢得客户的信任,成为他们最有价值的合作伙伴之一。

摘要

推销自己、你的模型和数据科学本身都是成为数据科学家的基础。不幸的是,说服人们使用你的模型并不简单,说服他们相信你是值得信任的,或者数据科学是解决他们问题的有效方法。

部分困难在于,你需要说服多组人,让他们参与解决方案的工作,并在以后实施。他们的需求可能是不同的,你需要做些什么来说服他们也可能是不同的。

旅程的第一部分是让你的客户相信你的模式满足他们的需求。建立对模型的信任比建立对人的信任要简单一些,但一些要素是相同的——模型需要可信和可靠。为了可信,模型需要是可理解的,你需要确保你的客户理解为什么你的模型是他们问题的解决方案。

销售单个项目是其中的一部分,但推销自己和你作为数据科学家的职业也很重要。从市场营销的角度来看,数据科学可以说是一片空白,原因有几个,包括它的相对新颖性、围绕它的大肆宣传以及缺乏代表该专业的特定机构。

这可能是一件好事,也可能是一件坏事,因为这意味着向潜在客户和客户解释数据科学的责任和机会都在您的手中。无论哪种方式,数据科学家都需要向新客户或顾客重新介绍他们自己对数据科学家的理解,向他们的受众确立数据科学的适度和可实现的好处。

你的个人品牌是成功赢得客户的另一个关键因素。对于与外部客户一起工作的顾问和在组织内部解决问题的数据科学家来说都是如此。有无数的技术被建议用来改善个人品牌,尽管有些比其他的更适用于数据科学家的情况。

具有广泛适用性的技巧的一个例子是电梯推销,专注于你的个人品牌是什么并提炼出其最重要的元素来开发电梯推销的练习是其他个人品牌活动的一个很好的平台。对于数据科学家来说,它还可以帮助您确保无论您在与谁交谈,都知道您所说的数据科学家是什么意思,因为这个短语对不同的人来说意味着很多事情。

能够与你的客户建立信任的关系将确保他们不仅会实施你的解决方案,还会尽早征求你的意见。然而,这需要一个很大的承诺,决心不让不舒服的感觉或尴尬的可能性干扰。

迈斯特、格林和加尔福特提出的信任方程式表示,人类顾问需要可信、可靠,能够与客户建立(足够的)亲密关系,并能够让客户相信他们将客户的最佳利益放在心上。虽然亲密和自私的概念不能适用于一个模型,但可信度和可靠性可以。

为了确保下一章的可信度,我们将探索更具体的方法来确保你的模型既可信又可理解。在接下来的章节中,我们将探讨如何确保您的模型是可靠的,方法是让它在测试和验证期间尽可能地接近它最初的表现。

销售清单

  • 您对模型的介绍是否在您的模型和客户问题的解决方案之间建立了联系?

  • 你考虑过你演讲的情感方面吗?

  • 对于“你是做什么的?”这个问题,你有“电梯推销”的答案吗?

  • 您是否考虑过自己对数据科学的定义,以及它如何解决您的客户和客户的问题?

  • 你是如何与客户建立信任的?如果有人问你是什么样的人,你的客户会怎么回答?

*

四、可信的模型

Earning Trust

在做预测或建立模型时(广义而言),你不可避免地会出错——毕竟“所有的模型都是错的,” 1 。显而易见的挑战是让你的观众相信你正在做一些他们可以利用的事情,即使你的模型是错误的。

在这种情况下,一个重要的工具就是向受众或用户解释你的模型的能力。如果没有对输入变量如何影响模型输出的某种形式的解释,你就无法对正在发生的事情做出任何假设。如果没有关于数据告诉你什么的假设,你就无法将结果与现有知识进行比较。是的,您将有某种准确性度量,但是它将缺少如何以及为什么达到其准确性的上下文。

反过来,这直接阻碍了您使用主题专家(SME)的知识来改进您的模型的能力,因为您无法将您的模型对问题的观点与主题专家对问题的观点进行比较。此外,无法在您的模型中直接使用主题专家的知识会错失为您的工作赢得支持的机会,也会错失改进您的模型的机会。

在这一点上,我应该注意到前面的章节没有假设任何特定的先验知识,除了一些建立预测模型的经验。在这一章中,至少一些讨论假设了广义线性模型(GLM)和回归的基本知识。

我仍然相信,如果你没有这个背景,你会学到很多这一章。然而,如果普通最小二乘回归、逻辑回归和泊松回归都可以被视为同一事物的例子的想法对你不熟悉,如果你阅读基本的广义线性模型文本,如多布森 2 或《远方》的文本,你将从本章中获得更多。 3

为了给模型提供可信度,对它正在做什么的解释需要对用户有意义。如果你把模型展示给用户,最好的情况是你的模型至少能说明一种他们已经知道的关系,以及另一种向他们展示新东西的关系。第一个确认模型已经找到了真实的关系。第二个说明模型发现了用户以前不知道的新东西。

如果你不能提供任何与用户自己观察到的东西相一致的发现,他们不太可能会接受你的模型是可信的。同时,如果你不能给他们提供任何新的东西,他们不太可能接受你的工作是值得付出的。

事实上,仅仅让用户拥有理解模型的能力是不够的。他们实际上还需要能够批评他们,并确保必要的预期信息被包括在内。我们将在本章末尾看到更多关于这个话题的内容。

在第三章中,我介绍了一个想法,即作为一个个体,要建立信任,你需要确保你有可信度、可靠性、亲密度,并尽量减少自我导向,正如在的《值得信赖的顾问》中解释的那样。 5 虽然后两种属性是人类的领域,但是前两种可以应用到模特身上。确保你的模型可信可靠是赢得用户信任的基础。在这一章中,我们将集中讨论可信度。

为了可信,模型至少需要三个属性:

  1. 可理解性:用户需要能够理解输入和输出之间的联系。因此,这个链接需要是可见的,而不是隐藏在一个黑盒子里。

  2. 可预测性/一致性:当你的用户已经看到结果或者已经研究了模型定义,他们应该能够大概知道两种情况中哪一种更可能或者更不可能是特定的情况,或者如果是连续的模型,可能性更大。

  3. 反映真实世界的知识:用户将经常对被建模的事物在现实生活中的行为方式有重要的体验。

第四点可能并不重要,但仍然有用——谈论你的模型何时最有可能出错,以及量化它最有可能出错的程度和方向的能力。这是另一个领域,伴随着模型可理解性或可解释性的问题,现在比机器学习(ML)炒作的第一波热潮受到了更多的关注。

如果你违反了这些关于模型行为的原则中的任何一条,你的用户对你的模型的信任将会迅速消失。虽然,特别是在后两点的情况下,并不总是有简单的方法来确保一个模型从一开始就符合这些规则,但是有一些方法可以使模型更有可能符合这些规则,还有一些方法可以检查您的模型是否符合这些规则。

本章将依次讨论这些属性。可理解性是这些问题中最技术性的,因此需要特别彻底的处理。然而,这并不意味着可理解性是最重要的,仅仅因为这需要额外的字数。我强烈认为,这些因素中的每一个都同等重要,形成了一个三条腿的凳子,如果其中一个因素不存在,凳子就不起作用。

这一章的很多内容将会以多种方式强调非线性关系。机器学习算法比简单回归模型更准确的一个重要方法是通过表示非线性关系,这应该是 ML 从业者所熟知的。允许额外非线性的缺点是有过度拟合的风险,这一观点也应该如此。较少讨论的是,非线性关系对用户来说更难理解,因此是信任的障碍。

大多数机器学习(ML)模型不允许建模者选择哪些变量将被建模为非线性效应。一个例外是广义加法模型(GAM),它也允许在其主要实现中可视化非线性效应。这显然是更多的工作,但这意味着非线性部分可以限制在最重要的变量,这样,非线性变量的数量可以保持在一个较小的数字,可以解释。我们将在本章的后面探讨这种能力。

正如我们在前面章节中看到的,模型需要符合目的。因此,一些模型需要比其他模型更强调可信用户如何找到它们。有些人可能只需要在这方面非常轻的触摸。正如第三章所讨论的,重点是要仔细考虑用户的需求,并相应地匹配验证级别。特别是,考虑用户与结果的接近程度以及错误分类的成本——用户通常会在某种程度上意识到错误分类的成本(尽管通常只是从他们的角度来看),并相应地调整他们的容忍度。

模型可理解性

直观地说,有两种策略可以用来建立既准确又可以解释的模型。第一个是建立一个本质上既可解释又能确保其准确性的模型。另一个是建立准确的模型,想出一个事后解读的方法。

在过去,人们通常认为,一方面,可以根据输入变量影响输出的方式来解释的模型不能为大多数人产生足够准确的结果。人们还经常假设,如果你能够建立一个足够精确的模型,那么几乎肯定不可能理解个体输入是如何影响结果的。

在接下来的几节中,我们将看到这两个假设是如何被证明是不正确的,并看到反驳这两个假设的不同方法。

既可解释又准确的模型

解释你的模型最明显的方法是从一开始就让它可以解释。如果可能,对连续因变量使用线性回归,或对分类因变量使用逻辑回归(二项式或多项式,视情况而定)或其他适当的 GLM(例如泊松、负二项式)。

机器学习模型在不必要的时候成为首选的一个特殊原因是,随着人们收集了更大的数据集,他们开始相信更大的数据集意味着更准确的结果,而没有停下来检查是否是这种情况。在某些特定情况下可能是这样,但很多时候并不是这样。

使用机器学习算法作为第一手段有时也会导致习惯,降低您制作准确和可解释模型的能力。

例如,因为一些算法需要以分类格式呈现的数据,所以在机器学习指南中,有时推荐将特征宁滨作为数据预处理步骤。然而,由于宁滨划分是任意和离散的,它们引入了不准确性。因此,重要的是要记住,建立传统的回归方法需要与建立机器学习不同的思维模式。当你转向回归方法时,一些适用于机器学习方法的经验教训将需要被抛弃。

除此之外,教回归原理的书不一定教好的建模实践。事实上,你可以说在回归环境中教授良好建模实践的书很少。从 Harrell 中选择的以下原则给出了生成本质上既准确又可解释的模型所需的一些概念:

  • 一个模型的第一步,既是一个好的预测器,又是可解释的,是考虑已经非常仔细地收集的数据。每个输入的样本是否覆盖了每个输入的范围,正如您在对模型评分时所期望的那样?

  • 仔细采访主题专家。您是否有与他们认为最有影响力的输入相对应的数据?

  • 此外,就最有可能表现出相互作用的变量咨询主题专家。例如,Harrell 编制了一份与人类生物统计学相关的可能相互作用的列表。 6

  • 考虑你将如何处理缺失的值。缺失的程度是否足够低,以至于您可以完全避免处理数据,或者您是否需要以某种方式估算值?

  • 检查你对数据分布的假设。你的数据真的是计数,那么泊松回归是最合适的吗?

亲提示

利用您的主题专家的知识,如果可以的话,是创建一个既准确又可解释的模型的基础的一个很好的方法。在第一章中,我们讨论了正确的提问方式——有助于识别最重要变量的问题,最有可能产生重要交互作用的变量尤其有用。

提高模型预测性能的一种方法是采用收缩方法,如套索或岭回归。这些方法减少了与逐步回归相关的问题,即变量选择过程是谨慎的,因此是贪婪的,这可能导致高方差。作为一个例子,岭回归试图通过防止系数变得太大来减少这个问题,因此在完全丢弃变量和允许它们过度影响之间采取了中间路线。

如果放宽了线性关系的假设,线性模型可以模拟更复杂的关系。重要的是,能够不费吹灰之力地表示非线性关系是神经网络和树集成比线性模型表现更好的关键原因之一,因此放宽这一假设的能力是缩小差距的一大步。Harrell 支持的合理预测模型策略的一个要素是放松关键变量的线性假设(由主题领域的知识决定)。

本质上,通过遵循一个仔细的攻击计划,可以根据需要使用标准回归或 GLM 来构建一个既准确又可解释的模型。

线性假设可以放宽使用一个附加模型来说明有影响的非线性预测。广义加性模型(GAM)使用诸如样条的平滑函数来表示非线性关系。R 中的 mgcv 包是该模型最常用的包之一。其特别的优点是,它提供了通过绘制样条关系来可视化模型的非线性区域的能力。例如,图 4-1 显示了由广义加性模型建模的关系图。

img/477772_1_En_4_Fig1_HTML.png

图 4-1。

作者根据可从 R package MASS 获得的 birthwt 数据集准备的广义加法模型的平滑变量的典型图。请注意,y 轴不是婴儿的出生体重,而是与 15 岁母亲分娩的典型婴儿相比,由于母亲的年龄而增加的体重。 7

这些图的一个最大的优点是它们显示了哪里可以找到转折点。在图 4-1 的情况下,该图取自婴儿出生体重模型,其中 x 轴是母亲的年龄,直到大约 26 或 27 岁,出生体重和母亲的年龄之间似乎没有显著的关系。从这一点来看,母亲的年龄和出生体重之间似乎存在正相关关系(尽管置信区间随着数据的减少而变宽,因为数据点的数量随着母亲的年龄而减少)。

这是一个比纯线性模型更丰富的视图,在纯线性模型中,模型必须用一条线来表示所有这些信息,通过绘制一条斜率介于年轻母亲部分的接近零的梯度和年长母亲的明显正相关之间的线。该版本如图 4-2 所示。

img/477772_1_En_4_Fig2_HTML.jpg

图 4-2。

年龄和出生体重之间关系的线性表示,基于 R MASS 包中的 birthwt 数据集。为了配合图 4-1 ,y 轴是年龄对出生体重的影响大小,而不是最终出生体重。

因此,得出的结论可能会非常不同——例如,使用该数据的线性方法,可以合理地得出这样的结论:母亲在 25 岁左右出生的婴儿可能会比青少年母亲出生的婴儿更重,但在分析 GAM 的非线性输出时,这一结论并不支持。一些教科书建议用一系列直线代替曲线。这可能是危险的,因为您将平滑曲线过渡替换为急剧过渡-您在一个点上立即从一个方向的线改变为不同方向的线,而不是在绕半径弯曲时逐渐改变。更有用的是与主题专家讨论为什么转折点在哪里。我将在本章的最后一节进一步讨论这一点。

这一领域与之前的观察结果紧密相关,即客户需要在他们的模型中看到一些他们已经知道和不知道的东西——展示一个 GAM,该 GAM 证实了客户之前的想法,即“年龄”是一个重要因素(他们确实知道的东西),但通过展示效果有一个峰值或逐渐减小(他们不知道的东西),扩大了他们的视角,为我带来了出色的客户认同。

这里的信息是不要放弃神经网络或随机森林等方法,而是不要轻易或过早地默认它们。即使当您的项目策略建议用可解释性换取准确性是必要的,也要意识到有许多方法可以洞察黑盒模型。让它们触手可及,以确保您的客户被您的模型及其结果所吸引——我们将在下一节中探讨其中的一些。

当无法解释模型时

在两种特殊情况下,实现一个可解释的模型是不太可能的,两者之间有相当多的重叠。首先是变量的数量太多——在某个点上超过大约 20 个输入变量,可解释模型的概念逐渐消失,因为列表变得太大,人类无法推理。另一种情况是手动开发的功能无法带来足够的性能,计算机视觉和图像识别就是这种情况的明显例子。

应该注意的是,在这两种情况下,都有一定程度的范围可以推回到可解释的模型——然而,决定不走这条路可能仍然是最合理的路线。有许多迹象表明情况可能是这样的:

  • 可能的变量很多,没有一个特别强。

  • 当你试图通过创建一个游戏或其他方式来可视化非线性关系时,每个变量都有几个拐点。

  • 有大量证据表明存在多重共线性,通常的补救措施无法成功提高模型的准确性。

假设您的模型至少满足这些标准中的几个,您可能有理由使用黑盒模型(如神经网络或随机森林)来代替内在可解释的模型。或者,您可能需要快速构建您的模型并仔细判断,因为精心制作一个好的可解释模型所需的特性将会非常耗时。

黑盒子里的窗户

应用了前面的标准后,您决定只有黑盒算法才能提供您需要的性能。另一种选择是有一个表现良好的不透明模型,但提供另一个模型来解释它。这种想法的一个扩展是用传统上认为不可解释的随机森林等算法建立一个准确的预测模型,并使用先进的技术来解释它。

代理模型

强制黑盒模型可解释的一种非常直观的方法是使用其结果作为第二个模型的目标,该模型使用本质上可解释的方法,如决策树或回归。这种方法被称为构建代理模型。

尽管这种方法一直都是可用的,但是最近,专门应用这种方法的包和方法已经建立起来了。在接下来的小节中,我将讨论两种主要类型的代理模型和重要的实现。

局部代理模型

使用随机森林发现量化关系以及进行预测是一个活跃的研究课题。最近的论文,如“量化随机森林中的不确定性” 8 讨论了基于 U-统计估计特定预测因子对整个随机森林中因变量的影响的大小和方向的策略。

R 中的 inTrees 包借鉴了类似的主题,它创建了一个树集合的规则集概要,是当今 R 中用来解释随机森林和其他树集合的几个包之一的一个很好的例子。inTrees 方法是从构成集成的树中提取规则,并根据规则的频率和错误等属性,保留最高质量的规则作为集成的解释或总结。

前面提到的方法只适用于树的集合,包括随机森林和梯度推进机器。解释最近出现的任何算法的结果的一个选项是使用通用模型解释器,其中本地可解释的模型不可知解释(LIME)可能是最突出的例子。

与广义加性模型等方法不同,LIME 将根据具体情况提供解释。也就是说,对于代表要评分的情况的一组参数,时间解释代表不同变量如何影响该特定情况;如果将另一种情况呈现给算法,变量的影响可能会非常不同。

解释以水平条形图的形式呈现,显示不同变量影响的相对大小,向右延伸的条形代表使分类更有可能的变量,向左延伸的条形代表使结果不太可能的变量。在高层次上,变量的影响来自敏感性分析,该分析检查与感兴趣的情况非常相似的其他情况的分类结果。

这是 LIME 的局部方面——解释是在个案的基础上给出的,而不是作为一个整体为模型提供规则或指南。这是与前面讨论的树集合的方法的显著区别。此外,LIME 目前仅适用于分类器,而非回归模型。

全球代理

LIME 是局部代理的一个例子——有效地构建了一个线性模型,它在所选例子周围的一个无限小的区域中工作。与局部代理直观相反的是全局代理——一种代理模型,它被期望解释底层模型在它的整个域中的行为,而不是在特定的点上。

如果存在显著的非线性或相互作用效应,局部替代和全局替代有可能在输入和输出变量之间得出完全不同的关系。因此,当试图向主题专家观众解释模型的整体操作时,全局代理可能特别有用,我们将在下面的文本中更详细地讨论。

使用全局代理的困难在于,您实际上需要构建一个额外的模型,其中包含了您在构建第一个模型时遇到的所有陷阱。代理模型本身可能会在您理解底层模型的方式中引入扭曲,在创建模型所引入的扭曲之上。

决策树可以说是用于构建代理模型的最流行的算法。虽然从理论上来说,建立一个决策树模型来适应输出应该是简单的,但是在实践中可能仍然是混乱的。Christopher Molnar 在 R 中创建了一个函数 TreeSurrogate,作为他的 iml(“可解释的机器学习”)包的一部分,它简化了将 PartyKit 包中的决策树拟合到您的预测的过程。 10

无论您是否决定使用 TreeSurrogate 函数,以黑盒模型的结果为目标来构建一个决策树模型应该是您解释最初看起来不可理解的模型的箭筒中的一支箭。毫无疑问,随着人们对确保模型可以被解释的兴趣越来越大,在不久的将来,更多的选择将开始出现。

模型可理解性的最后一英里:模型表示

创建一个最终用户能够理解的模型,一方面意味着确保他们基本理解模型中的输入和输出变量是什么,另一方面意味着他们理解这些变量在模型中是如何操作的。

在每一种情况下,最终演示对于确保实现无缝用户体验的最终目标都至关重要。虽然相对明显的是,输入变量本身是复杂模型的输出,或者变量具有不透明的名称,如“Var1 ”,会增加用户的困惑,而不是帮助他们理解,但有时不清楚需要多少解释。

部分问题在于,从建模者的角度来看,重要的是变量中包含了什么——模型的比率输入的名称很可能指的是构成比率的变量。显然,这对变量的用户来说没什么意义。想想会计比率的名称——“速动比率”、“酸性测试”,或者物理和工程中的无量纲常数,如雷诺数(在简单的水平上,它表示流体的湍流程度)。

雷诺数虽然没有一个完美的交流名称(从这个角度来看,“湍流数”可能是一个改进),但它确实说明了以不同的方式将模型输入的计算与其在模型中的意义分离的概念——在不同的环境中,不同的工程模型中使用多个雷诺数,但基本上以相同的方式使用雷诺数——来量化流体的湍流。管道和通道中的流动、穿过流体下落的颗粒、搅拌槽中的叶轮以及填充床中流动的流体都有一个雷诺数——所有这些都有不同的计算,但至少在基本层面上表达了相同的概念。

在数据科学模型中,这有两种方式。一个是,如果你想在尽可能多的地方重用你的模型,为了可移植性,用一种独立于它们的成分的方式来标记你的变量是很方便的。例如,在信贷风险模型中,由于当地税收或其他监管原因,收入或资产可能有不同的计算方法。因此,您要么需要确定您的定义所遵循的法规,要么提供足够的细节,以便您的用户可以自己进行检查。

第二点更为重要——如果其他人要使用模型,您的界面将需要标记,而引用模型中变量含义的标记比解释其成分的标记更能向用户解释输入。

在雷诺数的情况下,解释“一个表示湍流趋势的常数,其中较高的数更倾向于湍流”更有用,并且比“直径、速度和流体密度与流体粘度的比率”更能解释其在模型中的用途

对于你的模型来说,以用户可以理解的方式解释一个工程变量很少会简单地意味着列出潜在的变量或者把它的数学定义贴在网页上。这意味着在你的模型环境中解释新变量的物理意义,如果你不知道这个变量在你的模型环境中意味着什么,是时候和你的主题专家谈谈了(如果他们不知道,你可能需要放弃这个变量)。

底线是你不能期望你的用户是读心术者,严格关注标签不仅会导致用户更有可能使用你的模型,而且也意味着他们不太可能从你的模型结果中做出不正确的推断。

标准和风格指南

有许多资源可以用来指导如何开发标注变量的标准化系统。一些最受欢迎的包括哈德利韦翰的 R 风格指南和谷歌的 R 风格指南。然而,其中许多更关注单词的大小写或何时使用花括号或方括号,而不是变量名的可用性。

另一个寻找命名变量的最佳方法的地方是干净代码从业者。像“避免虚假信息”这样的建议是一个好的开始。罗伯特·c·马丁的一条特别的建议是,一个变量出现得越频繁,它就应该越短。相反,不常出现的变量需要更长的名字来定义它们。

然而,这个建议仍然是专门针对编程的。我们可能会找到其他的建议来填补更多的空白。

来自数据库和数据仓库专家的建议更好,他们更关心确保非专家能够理解他们所呈现的数据的任务。

  • 每个变量在数据库(或模型)中都应该有一个唯一的名称。 11

  • 如果建模环境没有进一步限制,该名称应该最多包含 30 个字符。

  • 如果需要,在所有变量中使用一个缩写。例如,如果您在多个变量中使用“重量”,请始终缩写为“wt”

  • 名词用单格,动词用现在时。 12

在你的团队中遵守一套约定的规则将确保用户能够完全理解变量影响结果的方式以及这些变量的含义。

模型一致性

用户认为可信的模型的第二个属性是它的一致性。大多数用户的默认立场是,如果变老增加了人生某个阶段的死亡风险,那么它应该增加人生其他阶段的死亡风险——如果变老一岁突然降低了你死亡的可能性,他们会感到困惑。

考虑到相互作用和非线性效应的模型可能会提供更高的精确度。它们也更容易受到数据假象的影响,而不是代表建模场景的真实情况。这就是大家熟悉的过度拟合的故事。

机器学习文本中很好地涵盖了总体上的过度拟合,推荐交叉验证等方法来检测它,推荐正则化等方法来防止它。然而,这些方法主要是为了挑选平均过度拟合的模型。他们不太擅长挑选模型中与整体画面不同的区域,因此可能会削弱用户对模型内容的信心。

这是一个必须小心行事的领域。如果您选择了一个允许非线性关系的模型,那么您必须在这样一个假设下工作,即这些关系有时能够准确地代表您所分析的内容。问题是双重的——一方面,存在某些非线性不真实的风险。另一方面,你会经常发现,即使非线性关系是真实存在的,你的用户也很难接受。

一个特别的问题是关系会改变方向,正如开头的例子所强调的。保持相同方向的关系的技术名称是单调的——相反的是非单调的。非线性模型不一定是非单调的,线性模型也可以是非单调的(想想平方项),但它们更有可能是单调的,与添加平方项或类似的线性模型相比,您对内在非线性模型的控制更少。

用户可能期望关系在模型的整个范围内有效。因此,即使有一个很好的理由让一段关系在不同的点上向不同的方向发展,说服你的用户仍然是一场艰苦的战斗。

仔细研究解释。如果你对一个人说,“多活一岁让你在接下来的一年里或多或少有死亡的风险?”他们几乎总是会回答“更有可能。”如果你告诉他们战争正在进行,18 岁到 30 岁的人都必须去前线服役,并问他们在这种情况下 29 岁的人是否比 31 岁的人更容易死亡,他们会回答“29 岁”

关键是,如果这种非线性关系有意义,并且人们理解它,他们就会相信它。建模者的任务是与主题专家一起验证非线性行为是否有真正的原因,然后将其传达给用户。

可以通过一系列不同的方式向用户传达原因。我们将在下一章的交流中看到其中的一些。现在,重要的是要认识到,你应该努力保持新的非线性关系的数量——那些你第一次教你的用户关于一种行为的关系——到一个可管理的数量。

在下一节中,我们将关注专题专家参与的研讨会,并获得他们对非线性关系是真实还是虚假的看法。

根据故事定制模型

许多模型都受到平坦最大效应的影响——最佳值不是一个点,而是实现相同价值的替代方法的区域。因此,一个模型在其开发过程中会达到一个优化点,在这个点上,即使输入发生重大变化,也很难进一步提高精度。 13 这可以被悲观地视为经济学中收益递减定律的数据科学版本,当它被首次提出时,人们正是这样看待它的。

然而,这个想法有一个半满的版本。不要把最大平坦值作为模型性能的限制,相反,可以把最大平坦值作为获得最佳结果的多种途径。因此,数据科学家比工程师处于更有利的位置,例如,工程师经常需要以性能换取成本,或以性能换取指标 A,以性能换取指标 b。

相反,一旦数据科学家针对准确性优化了模型,他们就可以自由地寻找优化其他指标的替代模型。文献中的例子表明,更复杂和更具体的模型变得简化和更普遍。

然而,在本章的上下文中,平坦的最大值效果提供了一个很好的机会来选择一个与用户的世界观最匹配的模型。你会意识到这个模型比其他任何模型更容易被用户接受。固定最大值为我们提供了另一个机会,使我们能够建立一个与您客户的目标市场相匹配的模型,例如,一个风险模型确定太大比例的信贷提供商目标人口是不可接受的风险,这将阻碍而不是帮助他们的业务,而一个在目标人口中更具选择性但同样准确的模型可能会更好地被接受。

平坦最大值效应提供的机会是挑战存在一个可以找到的真实模型的想法的机会,这通常具有副作用,即一旦目标已知,就在不考虑典型用户如何理解被建模的关系的情况下创建模型——如果存在“真实”或“最佳”模型,则考虑用户的观点是不必要的。

实际上,由于有多种最佳模式,显然在有可用的正确数据的情况下,有空间建立一个考虑到用户观点的模式,尽可能确认和编纂它。

满足用户的期望

模型是用来使用的,用户需要相信它们并理解它们,以便最大限度地使用它们——如果他们不信任它们,可能根本不会使用它们。获得用户信任的一个方法——梳理出重要的主题专业知识以更好地理解您自己——是亲自展示模型并检查关系的合理性。

为了充分利用您的主题专家,如果可能的话,您的建模过程的最后一步应该是邀请他们对模型的输出以及输入变量协同工作以实现结果的方式进行反馈。

石灰可视化的格式是如何可视化输入数据对输出的影响的有用指南。因为 LIME 将所有输入变量在特定情况下(特定借款人、特定被保险人、特定消费者等)的偏导数可视化。)在您的模型范围内,这种可视化让您有机会以对主题专家有意义的方式提出问题。将典型案例形象化,向用户展示模型如何工作,并询问他们对模型是否有意义的看法,以获得他们的认同并验证模型。

解释模型的表现

传统线性模型优于机器学习模型的一个优势是,已经开发了各种各样的工具来评估它们的性能。

一个特殊的例子是,线性模型的参数和预测的置信区间可以从几乎所有的统计软件包中容易地获得,并且计算方法相对简单,在标准教科书中广泛涉及。

在机器学习算法的情况下,情况远不是这样,包括决策树、随机森林和其他树的集合,以及神经网络。在这些算法的情况下,文本和包更有可能讨论输出,就好像它们是纯粹确定性的,没有误差线或类似的东西。在统计学术语中,模型只返回目标值本身、回归问题或分类概率、名义布尔目标的点估计。

然而,没有理由不使用置信区间或预测区间来描述机器学习模型的结果,并且越来越多的人认识到这样做的必要性,以及越来越多的工具允许从业者这样做。

类似于模型解释方法中存在的情况,存在为特定种类的算法计算置信区间的方法,并且存在计算置信区间的通用方法。我将从较高的层次来审视其中的一些方法,介绍它们的工作原理和局限性,而不是试图为另一个相对技术性的主题提供深入的解释。

代表性子模型

在随机森林和梯度推进机器的特定情况下,两者都是决策树的集合,构造置信区间的直观方式是分析构成整体模型的决策树。

由于这些模型本质上是由其他模型构建而成的,因此估计预测误差的直观方法是从来自基础模型的预测范围中得出误差。

对于这类模型,经常使用袋外抽样来量化模型的预测误差。袋外估计值是从没有使用特定观测值的树中得出的,并针对每种情况计算误差。因此,袋装树的内在可用性使得在随机森林及其同类的情况下计算预测间隔更简单。因此,随机森林的许多实现都有现成的预测误差估计值,作为软件包的现成部分。

可变重要性也很容易用于随机森林和基于树的表亲,如梯度增强机器,通过合计组成树集合的每棵树中每个分裂的重要性。从业者经常使用变量重要性来确定哪些变量应该保留,但更好的使用方法是与主题专家讨论,以确定模型是否使用了正确的逻辑。

如前所述,这是一个活跃的研究领域,随着 R 和 Python 中思想的新实现的出现——论文“量化随机森林中的不确定性”只是一个例子。 14

模型不可知评估

为机器学习模型创建置信区间的一种更通用的方法是使用 bootstrap 置信区间。

引导实际上是用替换进行重采样。为了引导模型的输出,您需要创建多个略有不同的模型。直观地说,简单的方法是创建多个模型,每个模型使用原始数据集的不同随机样本。一旦你创建了足够数量的模型,你就可以计算每个模型的误差,并建立一个置信区间。

能够讨论您的模型的局限性是确保模型用户能够信任您的结果的重要方式。预测区间本身是一种量化模型局限性的相对统计方法。在决定如何传达置信区间的内容时,你需要仔细考虑你的听众。

交叉验证和 bootstrapping 都可以用于推导任何形式的模型的预测区间。交叉验证倾向于高估预测误差,而 bootstrap 倾向于低估预测误差。

最近,在使用变分法作为另一种替代方法来计算机器学习模型的预测区间方面有所发展。虽然细节不适合这里,但这说明了这是一个吸引越来越多兴趣的领域,并且是计算这些预测区间的方法的另一个例子。

在某些方面,让用户知道预测区间在模型输出中如何变化比知道绝对值更能提供信息。知道预测在用户感兴趣的预测范围的中心是最窄的(代表模型最有信心的时间),给了用户对模型总输出的最大信心。

这可能会使模型输出的残差分析与整体误差分析一样重要。虽然残差分析通常用于 GLMs 的环境中,以验证诸如恒定方差(如果违反,可能表示不正确的分布假设)之类的假设,但是如果残差在预测变量范围的末端散开,或者在机器学习环境中对于特定输入变量的范围散开,则可能表示在该区域中模型不够准确,可能是由于该区域中缺少数据。

您还可以通过比较特定数据区域的预测误差来执行“软”类型的残差分析,例如,男性与女性、吸烟者与不吸烟者或儿童与成人(如果我们设想与医疗相关的模型)。

综上所述,能够以对用户有意义的方式量化模型的确定性,并能够解释什么时候模型工作得最好,是保持用户信任的关键。清楚地看到你的模型的局限性,而不是让人们放弃,有助于他们知道什么时候他们可以最有效和最有信心地使用它。

与主题专家召开研讨会,验证您的模型

我在本章开始时列出的模型所需的三个属性中的最后一个是,模型需要与用户对真实世界的体验相匹配。如果用户认为年龄或性别对结果有特殊的影响,要么模型需要与该位置一致,建模者需要能够声明该影响太弱而无法在模型中看到,要么最终建模者需要有足够的证据让人们改变主意。

研究表明,参与问题的解决会极大地增加人们接受解决方案的可能性。因此,即使你带着自己喜欢的解决方案进入这种情况,提出这个解决方案预期要克服的问题——而不提及你的解决方案——将有助于确保人们接受你的观点。如果你的用户能成为对话的积极参与者,而不是你与之交谈的人,那就更好了。)到,后一种情况允许他们巩固自己的负面观点。

虽然很明显这依赖于建立一个可以用这种方式讨论的白盒模型,但回报是巨大的。例如,这是计算出用户将看到的最终变量名的最佳方式,因为用户可以提出他们自己的有意义的名称。它可以让你避免“谷歌流感趋势”的错误,即展示一个包含明显虚假关系的模型。最后,仅仅询问用户的意见就能确保他们的认同,听取他们的建议并做出相应的改变就能达成交易。

与此同时,正如前面提到的,不与主题专家合作,无论他们是否是你的目标用户群的一部分,从让你的模型得到充分验证的角度来看,代表着一个巨大的机会的丧失。

正如主题专家用具体的术语思考的那样,为了促成一个允许他们发表意见的研讨会,需要您提供模型输出的具体示例,以及能引起他们共鸣的案例。

LIME 可视化风格是一种很好的方式来可视化这种特定目的的情况,因为如前所述,它显示了每个变量中运动的局部影响。这允许你以一种方式为主题专家设计你的问题,这意味着他们不需要任何统计知识来回答。以下是一些可能的例子:

  • 看看这个案例,从男性变成女性会产生积极或消极的影响还是没有影响?

  • 你认为情况 A 或情况 B 更有可能产生积极的结果(对于分类问题)/更大的价值(对于回归)?

  • 您是否期望变量在模型的整个领域中以相同的方式工作?(换句话说,是否存在预期的相互作用,例如性别和药物剂量的影响之间的相互作用?)

虽然检查本地化的解释可以清楚地了解现实生活中的案例是如何工作的,但它们可能会导致只见树木不见森林。在没有或很少交互的普通线性模型中,这不是问题,因为在不同的局部区域中,模型操作的方式几乎没有或没有差异。

然而,当存在显著的非线性和相互作用效应时,可能会有严重的差异。如果是这种情况,研讨会需要包括全球关系的可视化,以说明预测空间不同区域的不同斜率。对于重要变量,所讨论的 GAM 图可能是可视化关键变量在其范围内改变梯度的方式的有用方式。

根据我的经验,当人们得到这些图表时,他们通常会对这些关系的非线性程度感到惊讶——人们天生就强烈期望关系是线性的。出于这个原因,给有影响力的用户群一个看这些图的机会是确保用户正确购买你的模型的一个重要方法。

重要的是,他们对这些图表的反应将使你更好地理解你的模型,并围绕其操作领域画出有用的界限。

例如,在我主持的这样一个会议中,x-轴粗略地说是资产的年龄。当针对产出变量绘制年龄图时,出现了一个明显的转折点,导致一名主题专家意识到这与影响资产维护方式的法规变化相关。

也就是说,当资产达到特定的生日时,法规要求进行额外的维护,因此矛盾的是,此时资产变得不太容易出现问题。这最终意味着模型的范围发生了变化,因此监管变化不再对模型产生影响。

在这次会议之后,除了找到改进模型的具体行动之外,受到更广泛的用户群体尊重的主题专家对模型的运作方式有了更好的理解。这显示了与用户的互动是如何导致一个真正更好的模型,以及被期望使用它的人更好的尊重。

即使您没有能力像与 GAM 一样将关系可视化,即使知道模型中不同变量的重要性,您也可以使用这些信息来引发讨论并挑战您的主题专家。很少有实现不提供可变重要性绘图,有一些包可以为任何给定的模型绘制可变重要性。

有时,只要知道模型严重依赖于中小企业认为不太重要的特定变量,就足以发现问题。

这一点现在已经在一项研究中得到证实,卡鲁阿纳 16 等人创造了 GAMs 和 GA 2 Ms(具有双向交互作用的 GAMS)来预测肺炎病例的再入院。作者的重点是生产“可修复”的模型——也就是说,模型的推理可以被主题专家检查、质疑,并在需要时修复。

在许多情况下,主题专家能够追踪到特定病例或病例群的意外规则,并确定该规则是一个数据假象,而不是改变再入院风险的真正医学原因。用 gam 或 GA 2 Ms 制造的模型被认为是可修复的,因为发现可疑的模型可以从模型中移除,而不会对模型偏差产生连锁反应。

主题专家的眼睛可以发现数据科学家不可能发现的不一致。虽然数据科学家应该彻底了解他们工作的环境,但他们不能像该领域的主题专家那样思考,并且通常不会注意到对真正的主题专家来说显而易见的问题。

因此,例如,虽然专门从事医学研究的统计学家对他们的领域有透彻的了解,但他们永远不会像医生或全职医学研究员那样思考,医生或医学研究员在审查研究结果时总是会注意到统计学家的一些不同之处。这在当前预测建模所针对的一系列应用中都是正确的。

外部验证

在各行各业中,确保发现并消除我们长期以来一直深入研究的错误的最佳方法之一是找到一双新鲜的眼睛。构建预测模型是如此,设计桥梁或写书也是如此。

一个具体问题的例子是数据泄露,这种问题可以被另一双具有统计思维的眼睛发现。很容易创建一个具有夸大性能的模型,这是由于在评分时对模型不可用的数据进行训练。这就是俗称的数据泄露,至少在某些时候,像 Kaggle 上的数据挖掘比赛是由利用这些泄露的人赢得的。

如果在您的训练过程中发生了数据泄漏,而您并不知道,您可能会有一个在验证过程中表现很好的模型,而在投入使用时表现很差。在这种情况下,一双新鲜的眼睛可以让你避免很多尴尬。

如果您的组织足够大,可能是因为团队中有足够多的数据科学家,他们可以被分成更小的小组,这些小组可以并行工作,而不会在工作时看到彼此的大量项目。在这种情况下,你可以让这些小组来验证彼此的工作,确保他们会有一双新鲜的眼睛。

然而,这可能是相对罕见的情况。如果你不在这个位置,对于有大量暴露的模型,你可能想考虑保留一个外部统计咨询来验证。如果您的模型直接暴露给客户,或者如果结果直接纳入您的组织的盈利方式,这可能特别重要。

后两个因素都可以通过这种方法进行检查。只要问你一些问题,并试图理解模型在做什么,一个有能力的外部评审者就会指出任何一个区域,要么是模型没有很好地反映你在现实世界中的操作方式,要么是模型与自身不一致。

这最后一个验证,尤其是在与主题专家的研讨会相结合时,是确保您的模型与自身一致、可被用户理解并在其问题域内有意义的最有效的方法。

摘要

我们已经看到,随着机器学习面临更复杂的挑战,犯错的代价更大,用户开始要求更大的保证。为了获得这种保证,用户现在希望更好地理解模型处理输入以实现输出的方式。

最容易理解的模型是通过线性回归建立的。传统上,机器学习实践者假设简单的回归模型甚至广义线性模型都不能达到足够的精度,我们回顾了现代技术,这可能意味着可以实现更好的精度。特别是,像广义加性模型这样的技术意味着我们可以放松线性假设,这意味着不太好的数据集可以用于回归,但仍然可以得到准确的模型。

回归模型仍然受到其假设的限制;带有微弱信号的杂乱数据集可能仍然需要黑盒机器学习算法来达到所需的精度。对于这些情况,现在有询问黑盒和开发可理解模型的方法。

非线性关系,尤其是非单调关系,对用户来说可能是违反直觉的,需要额外的分析和解释。广义加性模型也提供了一个很好的途径来可视化这种非线性关系,以帮助解释。

简单地使模型在输入和输出之间的关系方面易于理解,本身并不总是足以确保用户信任模型的结果。

需要注意的一个方面是输入和变量本身是否可以理解。在这方面,命名约定很重要,因为要确保容易获得正确的定义。

您可以通过允许用户自己玩模型,询问模型以决定其答案是否有意义,来帮助用户理解和信任模型。这可以通过使用用户选择的值运行评分引擎的计算机模拟来实现,或者可以通过对构成模型的规则的详细分析来实现,如果可以的话。越来越多的人认为,能够获得专家用户的这种认可是确保模型完整性和可靠性的一个重要途径。

让模型的未来用户参与进来也很重要,这不仅是为了改进模型,也是为了获得有影响力的未来用户的认同。一种方法是与您当地的主题专家举行研讨会,检查您的模型得出的推论是否符合他们对主题的理解——除非您的模型符合他们的预期,或者您的数据和分析确实改变了他们的预期,否则您不会让他们相信您的模型。

检查你的模型是否有意义的另一个重要方法是确保它是由没有参与构建它的人验证的。在一个较小的公司,这可能意味着你需要保留一个外部建模顾问。

在第五章中,我们将着眼于如何确保您的模型在实施后及以后继续履行其最初的承诺,包括模型维护和监督。

模型可信度清单

可解释的模型

  • 给定你所拥有的数据类型,以及它可能违反典型假设的程度,你能开发出一个足够精确的内在可解释的模型吗,比如 GLM 或决策树?

  • 如果没有,是否有现成的工具来解释您正在使用的黑盒算法的结果?

  • 你能让你的用户获得解释吗,无论是在本地层面还是在全球层面?

  • 你能向你的用户解释你的模型预测的不确定性水平吗?

模型演示

  • 你的模型中的变量有有意义的名字吗?

  • 你的用户能容易地找到任何比率的解释或其他用于派生变量的公式吗?

  • 如果您的用户通过基于网络的平台或应用程序访问模型,用户界面/UX 设计是否允许用户快速访问目标和输入变量的定义和解释?

与他们自己和他们的主题一致的模型

  • 主题专家是否有机会审核您的发现,包括单个结果是否有意义,以及它们与输入的关系是否有意义?

  • 您是否与主题专家一起回顾了重要的非线性关系,以确保它们在主题的已知范围内是有意义的?

  • 您是否向另一组数据科学家展示过该模型,以审查该模型的结果在统计方面是否稳健且可重复?

  • 您是否将主题专家对最重要变量的看法与模型中发现的变量重要性进行了比较?

  • 在被评估后,你有没有移除或修复任何看起来有缺陷的关系?

五、可靠的模型

Maintaining Performance

在第三章中,我们首先遇到了信任方程,其参数包括可信度、可靠性、亲密度和自我导向。虽然你不能和一个模特很亲密,也没有人期望一个模特会为其他人着想,但是一个模特可以是可信和可靠的,也可以是两者兼而有之。在第四章中,我们探讨了如何让一个模型可信,但是模型可靠也很重要。

最近,模型需要可靠的概念受到了更多的关注,这至少部分是由于全球金融危机(GFC)的影响,在这场危机中,模型给出的结果很差,原因有很多,包括在模型设计者预期的参数之外使用,以及即使输入数据发生变化也被认为可以继续工作。

全球金融危机(GFC)的余波带来了一种新的对模型使用的怀疑态度,有些是有根据的,有些不是。最近,部分作为对数据科学和大数据炒作的反应,凯茜·奥尼尔 1 等数据科学领域的作者开始警告人们,疏忽模型的影响会伤害人们,这是他们工作的副作用,甚至是直接结果。这些警告也开始在面向普通读者的文章中出现和重复。22

奥尼尔的观点之一是,没有收到反馈的模型可能会以各种方式出错。此外,在许多情况下,在她使用的例子中,经常有多个机会将偏离正确道路的模型设定为正确的,或者做出停止模型的决定。从这个角度来看,这些例子很好地说明了观察和维护模型以确保可靠性的必要性。

不幸的是,用户经常期望模型应该是“设置好就忘记了”,并且没有立即理解维护和重新训练模型的需要。作为一名数据科学家,您的职责是在流程中尽早将他们的期望值设置为正确的水平。

以此为背景来维持用户对模型的信任可能会很困难。在某种程度上,这应该是困难的——有时用户太急于相信来自建模者的好消息,会使建模者很难对他们的模型的性能提出适当的怀疑观点。

前面提到的很多问题都涉及到维护可信度的问题,同时也涉及到与那些急于假设你的模型是可信的用户打交道的问题。信任等式的下一个阶段,可靠性,也开始发挥作用,因为模型不应该自动依赖于无限期地提供相同精度水平的结果。

综上所述,这些因素意味着,尽管需要一些努力来确保模型在长时间内运行到最佳性能,但有时很难说服用户允许您更新它们。这绝对是我的经验,其他作者也注意到,在质量保证、 3 等活动方面,数据科学作为一门学科落后于其他学科的规范,而这些活动在其他情况下被认为是确保用户和客户获得他们所期望的东西的必要条件。

因此,在这一章中,除了讨论如何使模型保持在最佳状态,我还将讨论如何说服用户这是必要的,而不要让他们认为你的模型在某种程度上是有缺陷的。

在这条路的尽头,存在着一个问题,一个模特应该什么时候退休?这个问题的答案可以追溯到我们的第一章,在那里我们讨论了如何确定你应该解决的问题。风险总是存在的,你的模型的点可能不再存在,因为它要解决的问题不再相关。

什么是可靠性

在没有确定可靠性是什么的情况下,很难谈论让你的模型更可靠。在我继续讨论模型的技术定义之前,先考虑一下它对人类的作用可能是有用的。

在“信任等式”的上下文中,可靠性被有效地定义为始终如一且可靠的顾问。因此,他们是这样一种人,他们说到做到,做人们对他们的期望,并且不会以意想不到的消极方式行事。

只要稍加修改,这些属性就可以移植到预测模型中。模型或数据产品还应该做人们期望它做的事情,始终如一地做它该做的事情,而不是以一种意想不到的负面方式表现——实际上,它不应该有负面的副作用。

因此,如果模型继续以与首次开发时相同的级别执行,并且继续做出相同的决策,则可以认为该模型是可靠的,前提是向该模型提供了用户认为是相同的数据-尽管从模型定型集的严格角度来看,这可能不一定是相同的数据。

在这种情况下,我们将模型本身(即由某种机器学习算法产生的一组规则)、提供给它的数据以及它们的共同实现视为一个完整的系统,它们共同构成了模型。

尽管模型或规则是稳定的,并且可能在开发阶段呈现的案例中按预期执行(尽管其他案例可能会出现问题),但是数据可能会发生变化。此外,实现虽然不会发生相同意义上的变化,但可能会给系统中的错误提供机会。因此,一般来说,这些方面更可能是导致可靠性失效的区域。

随着数据在商业环境中的使用(以及可能的滥用)的扩大,数据质量已经成为一个特别丰富且时尚的讨论话题。有人建议某些标准构成可靠性的组成部分4——我建议它们更一般地构成应用于模型的可靠性概念。

  1. 准确

  2. 完整

  3. 一致性

  4. 完全

  5. 可审计性

这一标准的列举,从蔡和朱的文章中,【5】也呈现出了中肯的思想。我建议相关性可以被合并到可靠性中,因为模型用户做出了一个隐含的假设,即模型结果与他们的情况相关——如果结果不是这样,他们将体验到可靠性的损失。

当你不检查你的模型时,坏事就会发生

一些最坏的结果可能发生在模型被实现,然后没有考虑到昨天是正确的今天仍然是正确的时候。

这种现象的一些最臭名昭著的例子起源于 GFC。在崩盘期间,之前不相关的变量变得相关,因为一条新闻在下跌时有负面解读。事实上,在极端影响期间,股票价格变得相关的趋势是一个众所周知的问题,然而,在回报更加良性的时期,这个问题被忽视了。

事实上,在 GFC 和其他极端事件期间,由于因变量和自变量之间的关系被破坏,多种行为模型不再正确工作。零售和公司信贷的违约概率模型是这种情况的另一个重要例子。

因此,在标准条件下表现良好的模型在金融危机期间变得非常糟糕是很常见的。如果事件建模团队没有提前开发出碰撞条件下的模型,那么他们将很难及时开发出一个能充分发挥作用的新模型。

这里的教训是,超越金融领域,模型的正确运行在很大程度上依赖于它们的环境与开发它们的环境保持足够的相似。确保模型继续在正确的环境下工作意味着仔细观察环境,以便能够尽早检测到意味着需要新模型的变化,从而避免使用有缺陷的模型。

在 GFC 事件发生后不久,有人说这些事件是“黑天鹅”,也就是说,它们很难在现有模型的框架内预测,因为它们超出了建模者的经验或数据集。这在某种程度上是一种逃避——在 GFC 之前的研究已经表明,在以前的崩盘中,资产相关性发生了实质性的变化,因此,至少研究人员知道模型在崩盘中可能会失效的观点,任何有兴趣找出答案的人都可以得到这一观点。

就像托尔斯泰笔下的不幸家庭一样,模特都有不同程度的问题。有些问题可能很小;其他大的。有时问题实际上意味着模型在某个地方造成了伤害。其他时候,问题只是意味着性能慢慢下降,直到模型比飞镖板好不了多少。

这些问题的共同点是,如果你想在为时已晚之前找到它们,你需要有意识地努力找到它们,你需要一个结构和过程来确保你找到它们。

你是否做对这件事的影响会很大。模型不可信的观点已经开始有了自己的生命,即使宣传数据科学好处的文章不断出现,警告数据科学出错的危险的文章也在激增。

在第三章中,我们讨论了数据科学家成为整个数据科学职业的品牌大使的必要性。做到这一点的最实际的方法之一是创建模型,这些模型既能在它们的生命周期中保持它们的性能,又能被信任来完成它们最初的使命,而且这样做不会造成附带的损害。

基准输入

一个模型的性能取决于它所输入的数据的质量。数据质量可以有多个维度, 6 这在某种程度上可以由数据的使用方式决定。一些作者已经确定了他们自己的超过 20 个可能维度的列表。然而,六维是特别常用的:?? 7T7

  • 完全

  • 独特性

  • 及时

  • 有效期

  • 准确

  • 一致性

可以在几个不同的阶段考虑数据质量的这些方面,例如在建立数据仓库时,或者在开始建模工作时,以便选择最可靠的变量。

然而,当从建模阶段转移到实现阶段时,重要的是避免假设您的初始数据评估足以作为实现的数据质量基准。在建模阶段评估数据质量时,您的注意力将会放在一组不同的标准上,而不是在实现后考虑数据的持续可靠性。因此,如果你没有有意识地决定检查数据是否适合实现,那么你可能会忽略某些方面。

从一开始就知道什么是输入变量的常态是非常重要的。如果一开始没有抽样,你就不会知道你应该期待看到什么,所以你不会知道什么时候事情变得不正常了。

机器学习文本部分忽略探索性数据分析是相对常见的,因为它涉及到确保根据昨天的数据训练的模型仍然适合明天的条件的问题。相反,更常见的是,文本强调探索性数据分析是数据清理和准备的前提,讨论如何处理缺失数据和数据清理的可能方法,从而就准备数据集进行建模的最佳方式提出建议。

虽然这是构建有效模型的必要步骤,但是这一步还应该提供大量的信息。

一旦您将您的模型实现为一个由数据集更新流提供支持的评分引擎,将会有另一组与更新过程的可靠性相关的问题需要解决。即使是最好的维护和编码系统也会有一定程度的错误、遗漏和不连续。如果它们处于足够低的水平,就不会令人担忧。但是,类似于数据集的整体问题,不看就不会发现,不知道的东西会伤害到你。因此,您需要了解数据馈送的特征。

有些人可能认为这是数据工程团队或数据库维护人员的职权范围。然而,虽然我不相信独角兽数据科学家,你也不应该相信,并且你应该在组织允许的情况下尽可能多地帮助维护数据库,但我认为数据治理对于数据科学团队来说太重要了,不能让他们自己置身事外。

因此,对数据治理最佳实践有足够的理解是很重要的,以确保您对该过程有所贡献。类似地,你应该期望领导算法治理,这是一门独立的学科。

通常与模型和数据治理相关的另一个因素是建模偏差,特别是当模型偏差表现为对特定人群的偏差时——种族子群体或社会经济子群体是其中一些更有特色的。如果一个模型被设计来做出影响人们的决策,那么这些影响是一个一直存在的风险,并且在没有人类参与的情况下很难识别,因为人类可以判断模型的影响。

确保您的模型仍然在其预期参数内运行的一般活动直观地要求对那些参数有很强的理解。这种理解既包括数据本身,也包括集中趋势、分布、偏斜度等的统计测量。和数据收集过程。也就是说,数据捕获速率的变化可以指示底层过程已经发生了变化。

例如,如果特定输入变量的提要看到不同的更新模式,或者数据量突然增加或减少,这很可能是数据收集的某个方面发生了变化的迹象,这可能意味着数据的基本质量或含义可能已经发生了变化,即使根据数据的直接采样统计数据并没有立即表现出来。

另一个需要考虑的问题是,如果数据馈送出现临时中断或部分中断,其中一些变量被中断,但其他变量继续更新,会发生什么情况。这是否意味着你的模型的得分输出是不正确的?在什么时候你能识别出有一个中断?

在开始建模之前了解情况的方法也可以用来寻找模型中的偏差。例如,已经多次观察到,犯罪模式的模型反映了执行逮捕的警官的同样的种族或其他偏见,因此,根据黑人在逮捕率中所占比例过高的数据训练的模型很可能导致黑人继续以同样的比例被占比例过高。

了解数据是什么样子,与预期的样子或应该的样子相比较,对于决定数据产生的结果是否可靠是至关重要的。

审计模型

我在本章前面提到的可靠模型的属性之一是可审计性。审计只是一个正式的过程,检查您的模型是否按预期执行,是否按预期实现,以及最初是否按预期开发。

因此,审核您实现的机器学习系统是最系统的方法,可以确保您有意识地寻找问题,找到问题,并记录潜在的解决方案。这种认识变得越来越普遍,随着新的压力施加到机器学习系统上,使其更加透明和可靠,正式审计这些系统的想法变得越来越普遍。 8

虽然这个词经常与会计或税务联系在一起,但事实上,审计可以发生在许多上下文中,对机器学习系统的审计直观上与 it 或类似上下文中发生的审计有更多的共同点。

需要一个正式流程的很大一部分是为了确保审查中没有遗漏任何内容,因为需要审计的系统由几个部分组成,这些部分会产生一些小的差距,从而导致通信丢失。同时,虽然审核是一个定义的过程,其步骤在某种程度上是预先确定的,但是当审核由人工执行时,就有机会更深入地研究任何看起来可疑的领域。

确保覆盖正确区域的预定步骤的组合,以及使用直觉引导搜索困难区域的能力,是处理在模型有偏差时难以找到时间的强有力方法。

执行审计的另一个关键优势是,无论是使用内部审计员还是外部审计员,您都可以使用它来提高模型及其实现的声誉。当你的部分目标是提高用户对你的模型的信任时,这是一个重要的关注点。

为了完成审计,您需要一个框架来进行审计,通常是一个被正式或非正式地认可为标准的框架。数据科学在这个领域没有太多的选择,但是至少有一个作者建议用 CRISP-DM 审计数据科学项目。 9

在这种情况下,CRISP-DM 流程的优势在于,您可以使用框架中的副标题来引发问题和讨论,讨论您正在审查的数据科学实施在这些要点上的表现。我们已经在第二章中看到了 CRISP-DM,但为了强调这些副标题:

  • 商业理解

  • 数据理解

  • 数据准备

  • 建模

  • 估价

  • 部署 10

这些副标题中的每一个都是审查和验证数据科学实施的自然主题。特别是,尽管有时很容易做出这样的决定:如果一个模型很好地实现了它的准确性度量,那么包含“业务理解”和“部署”作为审计主题应该意味着,一方面,模型确实提供了回答客户业务问题的数据,另一方面,实现的版本确实为客户提供了他们需要的结果。

当然,没有现有的强制性标准甚至是普遍接受的标准意味着如果 CRISP-DM 不符合您的需求,您就不会被它束缚。你可以根据自己的需要改变你想去的深度,如果你认为缺少了什么,你也可以添加到列表中。

当然,你会发现,如果你去一家大公司验证一个模型,他们通常会开发自己的框架,该框架通常涵盖与 CRISP-DM 相似但不完全相同的关注点列表。

模型风险评估

来自质量保证的另一个想法是,您可以适应确保您的模型实现预期结果的问题,即在实现之前执行风险评估。这一概念在汽车制造领域尤其普遍,但至少部分归功于六适马,它已经扩展到其他领域。

完成这项工作的正式工具叫做失效模式和影响分析,通常简称为 FMEA。最终,这是一个引导头脑风暴的过程,针对可能出错的事情及其后果,你可以采用适合你情况的正式程度。

通过不同的利益相关者群体和各种不同的提示,可以在不同的彻底程度上进行 FMEA。然而,一些核心活动是通用的,不管是什么场景: 11

  • 确定可能的故障模式——流程可能失败的方式

  • 确定这些失败的可能结果

  • 量化这些结果的严重性

  • 根据后果的严重程度,为最重要的故障制定响应计划

  • 记录流程的结果

在重视正式流程和文档的环境中,通常通过计算风险优先级来量化严重性。风险优先级数字是通过将问题严重性、发生可能性和检测概率的数字相乘计算出来的。

但是,可以通过小组集体讨论来获得一个整体优先级分数,例如满分,以一种不太费力的方式将这种方法的原理应用到您的情况中。通过采用这种方法,您可以获得自动 FMEA 在问题发生前检测问题的保证,而无需整个过程的官僚作风。这样你就不会让完美成为好的敌人。

这一过程的通常结果是制定一个控制计划,将特定的危险与预防措施相匹配。在制造环境中,这可能意味着在被迫剔除产品或分析原材料之前,如果输出发生变化,则检查机器设置。在机器学习模型的情况下,它更有可能意味着对重要输入变量的数据馈送进行足够的更改,从而触发对数据源的调查,数据源可以是供应商、收集点或传感器。

使用 FMEA 或另一种具有类似理念的工具来寻找过程或实施中的弱点,在制造业的原始环境中已经获得了相当大的成功。如果没有一个系统地寻找这些弱点的过程,制造业中的产品发布将会非常频繁地导致有缺陷的产品被发送给客户,并且制造商经常被客户的缺陷报告所震惊。

在当前环境下,用户可能会因为媒体报道的不良表现或他们自己以前的经历而对数据科学模型持怀疑态度,采用这些相同的工具有助于确保您的最终实施提供积极的体验,使用户再次信任数据科学。

模型维护

随着时间的推移,随着关系的改变,任何统计或机器学习模型都会经历性能损失。有时这种情况发生得非常突然,就像 GFC 危机期间许多信用违约模型发生的情况一样。其他时候,退化发生在一个较长的时期,并且几乎可以由观察趋势的人来预测。

是什么导致了退化?首先,不管你有多小心,在某种程度上,你的模型符合噪音或潜在因素,也就是说,它是错误的,开始,你的一些准确性是由于随机的机会。

从这两个例子中可以直观地看出,依赖于人类行为的模型可能特别容易退化,而在某种意义上与物理过程更密切相关的模型可能具有一些额外的稳定性。接下来,了解这对于您的模型的风险有多大以及在什么时间范围内将成为您的主题专家的关键盟友,并且在大多数情况下,将制定模型审查和再培训的定期计划。

同时,您可能希望使用数据告诉您的信息,因此您需要一些方法来确定新到达的输入数据是否已经更改。对于快速变化的环境尤其如此。

在数据点具有高度独立性的输入变量的情况下,统计过程控制(SPC)中使用的控制图可用于检测过程的变化。

有很多关于这些图表的使用指南,包括印刷版和网络版,它们已经被成功使用了很多年。它们的共同之处在于,来自一个过程的测量值被顺序地绘制在一个图表上,在平均值(或其他适当的过程平均值)处有一条中心线,上下线代表通常的过程范围。因此,很容易确定过程何时改变了其范围或其平均结果。

但是,特别是对于属性或分类数据,为相对较小的数据开发的方法在用于大量数据时会产生有问题的结果。

在设置连续数据的采样方案时仍需小心谨慎-请注意,没有必要使用每天收集的完整数据来检查输入变量的过程是否保持了模型实施时的特征,只要它足够大以具有代表性即可。

系统数据监控

只要您对自己环境中的正常和异常数据有一个清晰的理解,数据监控就是一个提供大量自动化机会的领域,至少有明确的系统化方法。

一种直观的方法是调整质量控制监控的原则,其中使用统计图表来检测收集的一系列数据何时发生变化,以此提醒负责人检查条件并可能采取行动。

控制图起源于制造业,在制造业中,测量产品某一方面的操作员可以快速评估潜在的过程是否已经改变。控制图有多种格式,以适应它们所应用的数据类型,但最常见的两种形式是 x-bar 和 R (x-bar 表示平均值,R 表示范围)和 c-chart(用于可计数事件)。

SPC 控制图是在一组预先确定的规则的上下文中进行解释的,这些规则确定了流程何时发生了变化,包括看到七个或更多连续点高于平均值,或者七个或更多连续点上升或下降,尽管在使用哪些规则上可能会有少量的变化。 12

创建和解释质量控制图的原则适用于各种环境,数据质量工作者越来越认识到如何使用它们来检测数据质量可能意外受损的情况。他们也相对较好地适应了自动化,尽管在自动化规则提醒他们注意某个问题后,阅读图表的人是决定实际发生了什么的最佳人选。

现在已经提出或修改了特定的图表用于数据流。 14 研究人员注意到,数据流的统计属性并不总是遵循一些基本类型的统计控制图所假设的正态分布,尤其是在试图衡量我们之前首次列出的数据质量的六个维度时。

请记住,在大多数情况下,使用控制图更常见的方法是启动一项调查,即使是非常短暂的调查,以决定最佳的行动方案,而不是强制进行自动调整。这是有意义的,因为这些工具是用来识别已经发生的不寻常的事情的,但是对于识别不寻常的事情是什么却非常有限或者甚至没有能力。

已经开发了特定的控制图来识别过程何时按预期停止运行——累积和(通常缩写为“cusum”)图是一个突出的例子。

了解流程何时停止正常运行是发现发生了什么的重要一步——如果您有外部数据提供者,提供发生变化的日期意味着他们更有可能提出可能的变化。同样,当您捕获自己的数据时,能够追溯到特定日期将非常有助于您确定变化的原因。

同时,在理想的情况下,您至少应该在计划阶段就识别出一些可能的干扰原因,比如通过 FMEA 或控制计划活动。如果你有,你将在哪里寻找原因上有一个领先的开始,并且可能有一个默认的纠正措施要采取(尽管你不应该期望在早期阶段已经预料到所有可能发生的事情)。

审核您的机器学习系统、评估不良结果的风险以及监控其输入和输出的过程是您可以采取的最佳措施,以确保您的项目交付其预期结果。不执行这些操作的风险类似于制造一辆在点火时无法启动的汽车的风险,或者更糟的是,虽然可以启动,但无法正确转向或刹车。

摘要

为了让用户信任你创建的模型,它们需要既可信又可靠。这一章关注于保持模型的可靠性。虽然可靠性有许多方面,但其中有一条共同的主线,即如果你不寻找问题,你就有可能在你的用户发现问题之前发现不了问题,因此你已经失去了用户的信任。

目前,由于越来越多的人意识到模型在简单的语言意义上可能存在偏见,因此模型在某些方面存在问题受到了额外的关注——它们可能歧视少数群体,或者以其他方式使被建模人群中的子群体处于不公平的不利地位。

从广义上来说,检测问题的一种直观方法是在模型生命周期的关键里程碑处对其进行审计。直观的例子包括实施前和实施一周年。

通过进行审计,您能够超越一些纯粹的技术属性(尽管它们通常会被包括在内),看到模型是否实现了它的业务目标,实现它的基础设施是否确保它保持了预期的性能,以及是否有意想不到的后果。

您还可以通过执行预实施风险分析(例如通过 FMEA)来防范潜在的副作用和意外结果。这是一种用于质量保证的常用工具,它试图在问题发生之前预测问题,并采取措施来防止问题或减轻影响。

对前面提到的两个想法的补充是监视传入的数据源和您的模型的结果。为了确保模型达到预期的精度,在开发和验证模型时,输入数据和结果的分布应该接近它们的分布。此外,传入数据速率的峰值或下降可能表明基础数据本身发生了变化,这可能会损害模型的结果。

统计过程控制图是专门为监控过程而设计的,目的是检测过程何时停止“正常”或“预期”通过建立流程的常规统计范围,他们意味着对您的流程进行快速直观检查可以确定您的流程是否正常运行,并有助于确定它何时停止正常运行。

这些将质量保证思想应用到数据科学模型中的措施有望提高您的系统的预期表现。它们将允许您和您的用户确信您所做的声明将由模型来实现。

在第六章中,我们将研究如何以最佳优势传达这些主张。

可靠模型清单

  • 在实施之前,您是否进行了风险评估?

  • 您是否设置了对输入数据质量及其分布的监控,以及对输出数据的监控?

  • 如果数据超出您的限制,您是否制定了行动或调查计划?

  • 您知道数据质量的哪些方面与您的实施相关吗?你如何发现他们的行为是否发生了变化?

  • 你是否评估过你的模型的结果,并试图发现你组织模型的方式所带来的意想不到的结果?

  • 您是否与模型用户就模型的检查和再培训频率达成一致?该协议是如何记录的?

六、促进您的数据科学工作

在前几章中,我们已经看到了开展一个有用的数据科学项目的机会,确认了客户实施结果的意愿,并确保了预期结果的实现。在本章中,我们将探讨如何确保您到目前为止所做的努力在您的组织内外得到认可。这种认可可以成为获得和从事更激动人心的工作的重要资本。

我们已经看到了让人们的注意力被允许开始和实施项目的重要性。如果你认为这就足够了,那也是情有可原的——你说服了某人让你为他们建造一些东西,并交付了货物。

不幸的是,这只是故事的一部分。你不能指望人们认识到他们得到的好处,也不能依靠口口相传让他们知道。你必须对人们理解你所做的事情的价值负责。

这有几种不同的模式。一种模式是记录你自己组织内部发生的事情,并让人们知道它发生了。另一个是与组织外的人或你不熟悉的人交流。

人们通常首先想到与组织外部的世界沟通,因为这是促进销售的因素。这并不意味着,如果你主要是在试图从内部改善一个组织,你不应该以非常相似的方式沟通。事实上,我们会看到,结构和内容从一种情况转移到另一种情况相当好。

这可能比联系你自己组织里的人更困难。首先,外界的人不太可能意识到你的存在,也不太可能认为你在做对他们有价值的事情。我们将讨论的下一个工具背后的想法是通过免费提供一些信息来抓住他们的注意力。以这种方式提升专家的工具是白皮书。向你自己组织中的人传达这个信息应该更容易。他们在和你一样的四面墙内工作,所以你有一些面对面接触他们的能力。对于这种情况,最好的办法是你可以直接谈论你的工作,我们将在本章的后面讨论如何从中获得最大收益。

数据科学白皮书

让人们知道你做了什么的一个关键方法是写一份白皮书。白皮书是一份营销文件,旨在展示作者在特定领域的专业知识。

在写白皮书时,作者通常会试图解释他们是如何用自己的专业知识解决问题的,或者教授他们所在领域的一些基本方面,目的是帮助读者了解什么时候该给专家打电话。因此,一个商人可能会分享一些关于一些非常小的工作的提示,导致读者应该打电话给专业人士。

互联网上有很多写白皮书的指南,通常包括结构指南。它们有足够多的种类,你可以选择最适合你需要的一个,所以看看几个,选择一个你自己认为有意义的。首先是内容因素综合指南(白皮书本身,与其他好的示例白皮书一起放在一个网站上)和来自 Foleon.com 的指南 2 ,它提供了一些关于如何分发白皮书的指导,这些指导并不是在每个指南中都可以找到。

然而,在数据科学的情况下,有一个扭曲,即通常作者使用他们的数据科学专业知识来解决读者是专家的领域中的问题,而通常作者是该领域的专家,而读者不是。这对文档的组织方式以及如何接近读者有一个微小但明显的影响。

因此,你的第一个任务将是在读者的问题领域建立凭证,由于你在该领域不太可能比读者有更高的资格或经验,直截了当地提供你自己的凭证不太可能成功。相反,最好的方法可能是“展示,不要说”的方法,这在创意写作课上经常见到。

在这种情况下,它指的是让读者看到你的角色在行动和他们的故事展开,而不是写出他们的特点或概述情节。在这种情况下,它意味着以一种不怀疑其对该领域的重要性的方式解释你所处理的领域问题。

如果一个解决方案没有价值,你就不会去做它,所以解释价值在哪里——很多时候它会以这个问题成为更大目标的障碍的形式出现。总的来说,证明你了解问题如何影响他们的业务,可以让你赢得观众。

从很多方面来说,本文中的这个过程只是我在前面章节中介绍的建立信任之旅的一个简单概括。不同之处在于,这一次你没有与听众在房间里开始双向对话的优势——你必须预测一点听众可能的反应,以确保你到达那里。

一旦你确定了问题,故事的下一步将是你如何解决它。在数据科学的背景下,通常需要两种工具来获得解决方案——足够的数据集(“足够”是因为大多数数据集与我们的“理想数据集”相差甚远)和合适的分析工具。

鉴于如此多的数据科学工具都是开源的,数据集(如果不是处于原始状态,通常是在您对其进行清理和预处理之后)很有可能比竞争对手更具优势。

因此,提及数据获取或清理的方式可能有助于进一步建立可信度。如果您使用主题专家的建议来改进预处理过程,情况尤其如此,例如,如果存在与确定如何处理这些丢失数据的收集过程相关的丢失数据的原因。

当讨论所使用的算法时,这不仅仅是一个为非技术观众正确定制讨论的问题,还是一个节奏的问题。为了保持读者的注意力,白皮书需要有一个正在展开的故事的感觉和节奏;太多关于算法如何工作和你是如何做的细节会减慢速度,让读者失去兴趣。

至关重要的是,读者没有必要完全理解用来传达你的信息的算法。几乎可以说,对算法的任何描述都比它对算法如何工作的真实解释更有色彩和趣味。

将您的算法应用于数据代表了您的三幕故事中的第二幕,第一幕是理解问题和数据。在这里,解决方案本身可能不是卖点,虽然很重要。当您实施类似于预测模型的东西时,卖点通常是您在此过程中观察到的数据——关于变量相互作用方式的额外经验,或者关于哪些变量最有影响力或关系形状的惊喜。

尽管白皮书的焦点几乎总是在外部读者身上,但也有针对内部用户或不做区分的白皮书的空间。作为一名工程师,我为一位经理工作,他让团队维护一个以另一个名字命名的关于各种问题的白皮书库。它们既有利于直接向客户分发,也有利于让各种面向客户的员工了解情况。

你的白皮书会让人们记住你,并认为你是一个在他们的领域有用的人,如果你框架正确的话。接受数据科学解决方案的最大障碍之一是认为数据科学正在篡夺专家知识——白皮书提供了一个绝佳的机会来证明数据科学不是篡夺者,而是专家知识的补充。

谈论你的工作

对于内部受众,您可能有更多的机会接触到您的受众,因此您不局限于使用白皮书向您组织内的人宣传您自己(尽管我们稍后会看到,有时这可能是有用的)。

传播你所取得的成就的最好方式是面对面地做一个演讲或报告。回到第三章,我们从说服听众的角度看了成功的数据科学演讲的一些要素。

在这种情况下,说服显然是主要目标。你试图赢得那些决定是否继续你的项目的观众。你可能认为你已经过了那一关,可以轻松地进行推销,直接开始分发信息。

对于许多数据科学家来说,危险在于假设数据科学演示的目标完全或主要是传递信息。如果您正在向其他数据科学家的观众进行演示,以解释某个技术观点,这可能是真的。然而,这可能不是你做演讲时最常见或最重要的场景。

更常见的情况是,你需要说服人们你正在做的是一个好主意,或者让他们相信你的工作对组织产生了积极的影响。

这种推理回到了准备演示指南中经常提到的一点,无论是五步、六步还是八步(这是个人喜好的问题,就选择对你来说最有意义的一步,类似于白皮书指南),准备演示的第一步是考虑你的观众。

作为一名数据科学家,在对包括非数据科学家在内的观众讲话时,你不能假设你的观众接受你的工作有价值,你也不能假设你的观众对你的工作的价值有同样的概念,那就是你希望他们有的。

即使在工作完成后,你也需要继续销售收益。你还需要继续避免添加你的观众会发现无关的技术细节。

考虑到古老的机器和它运行的不合适的操作系统,你关于加速你的算法是多么困难的故事不会让非数据科学家观众兴奋。你的非数据科学家听众不会关心其他数据科学家对你在一个难以使用的编码平台上实现一种新算法所展示的技术才华有多印象深刻,这些听众不会理解它为什么令人印象深刻,你会在这些部分失去他们的注意力。

相反,他们会关心你的创新将如何减少他们做事所花的时间,或者它如何有助于确保他们所花的时间得到回报。通过坚持你的项目的这些属性,你将确保你的工作被整个组织记住。否则,你可能会发现自己只能向外部顾问解释公司数据仓库中不同表格的内容,这样他们就能赚到你工资的数倍,去做你睡觉时也能做的事情。

然而这一次,好处要么已经实现,要么即将实现。因此,对于流程的这一部分,重要的是要审查这些好处是否已经实现或可能实现。

尽可能坚持无争议的收获,否则你将面临在自己的会议中被挑战的风险。如果你成功地接受了挑战,你就冒着失去未来努力执照的风险,这显然违背了召开这种会议的目的。

在大多数情况下,收益足够大,不需要修饰,所以你要避免做出无法证实或会引起听众反感的声明。此外,通过提及尚未实现的收益来避免过度销售的诱惑,尤其是需要额外工作的收益。坚持目前发生的事情。

你多久做一次有一个甜蜜点。人们很乐意花几分钟时间来了解他们组织的其他部分,以及让他们的工作变得更容易的计划,但是这种练习经常变得有点太例行公事了。一年四五次大概是上限了。

然而,不到两次,你就会被遗忘,所以你要向自己承诺,通过记日记的方式,在你的部门内寻找适合与组织其他人分享的工作,来面对这些内部受众。

但是,如果你的组织很大,这实际上可能会转化为一年中两到三次以上的演讲,因为你可能会在不同的时间向不同的团体进行陈述。

向外界展示

许多数据科学家确实向小组、向他们自己组织之外的人展示他们的工作,例如向数据科学会议小组或他们所在领域的类似小组展示。原因通常是宣传您公司的数据科学团队是一个很好的工作场所,他们正在做有趣的工作。

更重要的是,通过根据你的工作创建一个演示文稿,思考如何让观众参与其中,并因此找出它的哪些方面会让观众参与进来,你就会发现你的工作哪些方面是重要的。

通过打破从特定项目的角度考虑工作的倾向,并思考适用于多个项目的共同经验,您可以进一步增强最后一个好处。这些可以是技术课程,例如,适用于特定工具的最佳实践,或者更以人为中心,例如在特定背景或特定情况下与客户交谈的最佳方式。

这也给了你一个很好的机会,通过观众或之后问你问题的人的问题来免费验证你的模型。虽然人们很可能是礼貌和鼓励的,但当他们有你不容易回答的问题时,你会知道他们找到了一个漏洞。

另一个好处是,当你想和一个友好的观众排练你的演讲时,很可能是由你的团队内部的人组成的,这是一个额外的机会来和那些人谈论你一直在做什么或者团队一直在做什么,并且是一个特别好的机会来讨论团队在单个项目的狭隘目标之外的工作。

同时,聚会的数量也是有限的,所以发言的机会也是有限的。幸运的是,你可以通过写博客获得很多同样的好处,尤其是如果你在像 Medium.com 这样的网站上发表文章,那里有相当数量的读者。

即使你不使用一个有大量观众的网站,他们也不会慷慨地发表评论,决定选择最好的项目或课程,然后从头开始向应该对你的组织一无所知的观众解释这些项目或课程的过程,将帮助你重新考虑你正在做的事情,并找到你的工作令人兴奋的新方式。

最后,在这两种情况下,其他数据科学家的观众会对你从外行观众那里得不到的技术成就给予称赞,如前一节所述。如果你想得到关于你的新技术解决方案的反馈,这些是找到它的主要途径。

创造历史

作为一名数据科学家,最棒的事情之一就是尝试许多不同的方法来解决问题。很自然,这些尝试中的许多将会是辉煌的失败,其中预期的问题没有得到解决,但是学到了可以在其他地方使用的东西。

许多也将是直接的失败,在那里你所学到的是建议的技术不是解决问题的正确方法,或者,至少,建议的解决方案需要太多的努力来证明其回报。如果你的组织不想每隔一年在每个问题上尝试相同的不合适的方法,这些是要学习的重要课程。

因此,如果你要确保人们不会一次又一次地尝试你失败的道路,你应该为你的失败感到骄傲,就像你为你的成功感到骄傲一样。听起来可能很奇怪,如果你正在做一件看起来不会有好结果的事情,想到公司会重复你的错误,比让你的同事知道他们发生的事情更令人尴尬。

为了确保别人不会步你的后尘,当你不希望他们这么做的时候,你需要坦率地说出什么有效,什么无效。同时,由于大多数时候你无法准确预测谁会重复你的错误,你需要以一种未来用户可以找到的方式保存这些信息。

这是项目文档的关键成果之一——记录对未来处于你的位置的人来说什么是有效的,什么是无效的,这个人可能是你,也可能是其他人。

您可以通过“经验教训”文档捕获项目的这一方面,这应该被视为任何数据科学工作的重要成果。

实际上,这些文档记录了你做了哪些尝试,哪些成功了,哪些失败了。然而,它们不同于实验室笔记本,因为它们是面向普通读者的,而不仅仅是作为个人备忘录。

因此,您需要仔细考虑如何构建您的帐户,以符合预期目的。在这种情况下,重要的是要切入正题,这样那些不在你身边、不了解你所做项目背景的人也能很容易地理解作为结果而学到的重要一课。尽可能地,留下商业案例的细节来完成工作——只要有足够的信息让人们理解你为什么在这个领域寻找。

■ Pro Tip

成功地创建一个关于以前工作的信息库,并很好地加以利用,可以成为一个实质性的竞争优势。例如,《麦肯锡之路》 3 的作者说,在麦肯锡工作的一大优势是能够访问麦肯锡在以前项目中所做工作的数据库。另一方面,在我的前几份工作中,我花了很多时间重新建立已经丢失的知识,我可以证明,简单地重新发明你知道的以前已经建立的东西不会让人期待周一。

关键的部分是同意将经验教训文件放在哪里,因为这些将是你的组织的企业记忆的重要部分——只要任何需要找到它们的人都能找到它们。您组织的网络对这样做可能是一件好事,也可能是一件坏事——只要放入共享驱动器,就很有可能看到它们被遗忘或找不到。使用 Git 存储库或类似的库更好,对于数据科学家的目标受众来说是可以接受的。然而,诀窍是避免将经验教训文档与它们所来自的单个项目过于紧密地联系在一起。

对于贵公司的非数据科学部门,最好通过更广泛的渠道传播信息。这些可能包括公司通讯。

在其中一些论坛中,你不会想太直接地提及那些没有如你所愿的事情。当你想报告一个没有按照你预期的方式进行的数据科学项目时,你需要改变它的最初目标。也就是从一开始就强调你发现的东西就好像是目标一样,让最初的目标作为次要目标出现。

文档的不同受众

经验教训文档最明显、最自然的受众是数据科学团队的其他成员。显然,他们最能直接受益于这样的知识,即在某些特定数据集上,在您的团队中流行的特定方法并不像预期的那样工作,或者其他类似的见解。

这并不意味着你忽略了撰写外行人也能理解的文件,尤其是对更高级的管理人员。如果你不能让管理层知道你学到了什么,你就冒了很大的风险,他们会要求你重复你已经做过的工作,而你知道这些工作不会达到预期的效果。

与此同时,高级经理和数据科学职能部门之外的其他人不太可能有时间或兴趣仔细研究每个项目的细节,以发现对他们来说最重要的经验教训。相反,你必须去找他们。

当您为这些受众准备文档时,您需要确保这些文档对他们来说是直观的,并且直接满足他们的需求。从引用内部数据集的意义上来说,本地化是很好的,或者用您的内部术语引用您组织的客户或产品线,但是技术方面必须与他们的理解水平产生共鸣。不要不好意思保持简单。

为了帮助确保需要技术细节的人可以阅读它们,而不需要的人可以避开它们,请仔细考虑文档的结构。通过将文档分成几个部分并用清晰的副标题标记出来,可以帮助人们找到他们最想阅读的部分。

最后,尽可能保持简短将最大限度地增加人们阅读足够多的内容来阅读你希望他们阅读的部分的机会。显然,你每增加一个额外的单词都会增加你的读者失去兴趣并停止阅读的风险。

这个建议的整体看起来可能非常熟悉。事实上,实际上,你在这里所做的实际上是为你公司内部的循环创建一个白皮书。

这些目标实际上惊人地相似,最初您可能没有意识到,但这些目标的一半目的是确保您和您的数据科学团队在早期被认为是可以帮助企业解决任何给定问题的人。这里的关键信息是,你可以帮助任何事情,你的回答将是有用的。

不同之处在于长度。当你写内部文件时,控制文件的长度是非常重要的。人们更倾向于假设外部白皮书有价值。这部分是因为人们知道外部白皮书的作者将他们视为潜在的收入来源,部分是因为人们感觉很难接触到白皮书的作者。如果你是他们每天都可以看到的人,或者认为他们可以在任何时候看到你,那就不太可能花力气去阅读你的论文——你最好让它简短易懂。

这个教训就是,如果你不经常提醒外部客户,你永远不会认为他们会继续看到你的价值,你也不能认为你的内部客户会自动看到你的价值。

摘要

实施并不是最终目的。你需要确保别人听到你的最佳成绩。你还需要确保你是传达项目失败时发生的事情的人,这样你就可以解释你学到的教训。

有书面和口头的方法可以做到这一点。为了推广你的工作,你可能希望写一份白皮书——如果写得好,你可以通过这种方式非常有效地吸引更多的工作。然而,重要的是要取得正确的平衡,当然也要确保你对你的读者慷慨大方。也就是说,你需要给读者有用的信息,而不是简单地推销你的产品。

记录你所取得的成就也很重要。人们可能会认为,面向其他数据科学家的文档是故事的结尾。您团队中的其他数据科学家可能知道去哪里寻找以前数据科学项目的信息。不要忘记的另一个群体是非数据科学家,特别是在许多情况下,这个群体包括可以让您重复您已经完成的工作的高级人员。

虽然白皮书被视为外部利益相关者的文档,但是您可以使用相同结构的简化版本来创建在您的公司内执行相同工作的内部白皮书。

对你来说会有更多的工作,但是如果你能够亲自向你的用户展示你的作品,那么对你的观众来说工作会更少。一般来说,人们会很高兴听到减少他们工作量的创新,所以他们热衷于参加你的演示,但在你安排会议之前,要确保结果是你声称的那样。

在这一整章中,一个重要的经验是从你的努力中学习尽可能多的东西,同时与尽可能多的人交流你所学到的东西。这些是建立数据科学团队品牌的一些最有用的初始步骤。

下一章将基于这一理念,探讨如何构建行为,帮助您的数据科学团队更有效地学习,同时更有效地发挥作用。

促销清单

  • 你是否已经编写了一份白皮书,展示了你发现的关键见解,同时也展示了你的团队的能力?

  • 你是否确保你的白皮书给读者提供了他们可能不需要的信息来建立信任,并建立了你在相关主题领域的可信度?

  • 你是否向当地的 meetup 小组展示过你的作品,展示过与你向客户展示的不同的一面?

  • 你是否在博客上记录过你的工作,展示过一些你无法在 meetup 小组上展示的工作,或者展示过一些你通过做几个不同的项目学到的经验?

  • 您是否记下了在接下来的两三次中,您将向业务中的其他人展示数据科学团队进展的时间?

七、团队效率

Making the Best Use of Everyone You’ve Got

在这本书里,我一直强调从你所做的工作中获得最大的价值,无论是仔细选择最有价值的项目,还是确保该项目的最终版本能被尽可能多的用户群充分欣赏。

在第六章中,我们谈到了向组织中的其他人推销数据科学团队的工作。可以说,我们正在寻找建立团队品牌的开端。

就这本书而言,首先看团队品牌是很自然的,因为它是从你已经完成的项目中自然延伸出来的。但是,我们也有理由怀疑,当初是什么让团队合作得很好。本章应该解决这个问题。

有时候,“团队”这个词似乎是一部关于公司生活的喜剧中的笑点,比如《办公室》或《??》的《办公空间》。相比之下,在这一章中,我想谈谈如何充分利用你身边的人,而不是强迫你和同事一起“开心”。这是通过与周围的人更好地沟通,找到共同的做事方法,直观地实现的。

从工作中学习

数据科学家通常专注于技术学习,但不应忽视人的因素。在本书中,我们讨论了不同的方法,以确保在与数据科学团队周围的人更有效地沟通时,不忽略人的因素。然而,我们还没有明确地谈到如何作为一个团队一起工作以获得最佳结果。

同时,我们应该注意到我们已经提到的一些提高团队效率的间接方法。其中最重要的一些在最后一章,我们讨论了推广从数据科学过程中吸取的经验教训的方法。毫无疑问,确保你周围的每个人都尽可能地从你的工作中学习,是在团队中有效工作的最重要的方面之一。

然而,虽然没有明说,但这些项目所带来的学习通常是技术学习。我们讨论中隐含的意思是,我们所宣传的大部分内容都是您的研究或分析的直接结果。

然而,注意到你正在努力实现的目标的其他方面是很有用的——那是你一直在做的事情中的人的因素。如果你在过程开始时没有注意到这些教训,你很可能没有花时间去认识到你从一个特定的项目中学到了什么。

为了说明我的意思,考虑一下本书中讨论的项目的生命周期。在这本书里,我提到了项目从有问题的顾客或客户开始,通过正确理解问题,提出并实施解决方案,然后记录并推广已经实施的解决方案的过程。

在第六章中,当我们谈到通过分享您在此过程中学到的知识来提升数据科学团队时,您可以合理地推断出我所说的是直接来自数据分析和建模流程或尝试实施解决方案的流程的技术发现。事实上,当您试图为数据科学团队建立品牌时,这些是与组织的其他成员分享的正确内容。

然而,至少在数据科学团队内部,您学到的关于如何与某些人或人群交谈的经验,或编写优秀白皮书的新方法,与分析的直接结果或技术课程(如准备某种类型变量的新方法)一样重要和有用。

不幸的是,与技术课程相比,这些课程很少被记录在正式的文档中,或者通过培训课程反馈给组织。这种情况可能有几个不同的原因,但很可能是认为创建以人为中心的问题的文档和演示更困难,特别是对技术人员来说。

如果你是一个定期进行回顾的敏捷团队,你已经有了一个定期的过程,部分是为了确保某种未记录的交流发生。危险在于,有时对项目的关注意味着一些最重要的教训可能会被错过。

回顾会议的安排很简单。你回顾最近的活动,列出哪些进展顺利,哪些出了问题。在敏捷环境中,最近的活动通常意味着在最后的冲刺阶段,你不必为了做回顾而遵循敏捷的工作流程。尽管敏捷是第一个用名字来形式化它的,并且这个想法因为敏捷而变得更加流行,但是它对每个人来说都是一个普遍的好主意。

回顾有时不能交付的一个关键原因是,数据科学家(或软件开发人员)天生不喜欢谈论交付项目的人的方面,并且经常找到聪明的方法将本来是关于人的方面的讨论变成技术讨论。

事情可能以这种方式出错的一个常见方式是,人们过度使用项目或敏捷术语,以至于本应是关于人的问题(如沟通不畅)的讨论保持不变,或者变成了关于技术成果的讨论。例如,如果沟通问题导致某人接收到错误的信息,从而导致技术问题,则沟通问题是问题的根本原因,但可以忽略,对技术后果的彻底讨论可以代替对沟通如何失败的更有成效的讨论。

如果你不在敏捷环境中,因此没有回顾,或者在敏捷环境中,但还没有采用它们,这并不意味着你错过了回顾。回顾并不依赖于一个敏捷的环境。如果你没有因为前面提到的原因而被敏捷术语所束缚,你甚至可以进行更有效的回顾。

你可以在互联网指南中找到的举行回顾展的方法,正是你可以用来制作适合自己的回顾展的基础。在每一种情况下,你基本上都有不同的方法来促进某种程度上引导的头脑风暴会议。在这种情况下,你有很大的空间来引导头脑风暴到你认为最需要的地方。

不要满足于用数字追溯。也就是说,如果你要求团队想出可行的和不可行的东西,在加号栏和减号栏之间过一会儿,你得到的都是你上次用安全的敏捷行话或你公司支付的上一次培训会议的安全行话表达的老一套东西——拒绝它并要求更多。

如果没有那么糟糕,但是唯一的问题是纯粹的技术问题,那么给他们一些人性方面的提示。它也可能以另一种方式工作——如果问题太多是在人的方面(这很可能意味着回顾已经沦为一个简单的责备游戏)。

事实上,回顾展是一种可扩展的形式,类似于原曲或 12 小节布鲁斯,它可以用不同的方式来满足人们的需求。

最重要的是,回顾是一个平台,让管理者扮演最重要的角色——作为教练的管理者,教练这个词本身实际上是老师的另一个词。

事实上,虽然教练的想法有时会让人联想到“官方”或公司授权的一对一教练会议,但团队教练会议有时会更有效。考虑运动团队(与商业团队的比较被过度使用)。教练所做的大量互动和工作是与团队一起完成的,而不是一对一的。通过将这些课程作为团队辅导的机会,有很大的机会来改善团队,最明显的是通过确定您希望整个团队采用的行为。

有意识地决定在回顾中引导讨论的第二个好处是,你可以通过做“粘合工作”来获得人们改进团队的称赞“粘合工作”被宽泛地定义为对团队成功至关重要的工作,但不是由组织的标准度量来衡量的。这种工作很容易被忽视,富有成效的团队成员可能会因为他们努力提高整个团队的生产力而得不到应有的荣誉。

对于那些本能地畏缩不前,让团队的思想流动的人来说,这可能是一种不同的做事方式。这样做是有时间的,但也有时间确保不仅讨论正确的问题,而且讨论产生切实可行的建议。

因此,有空间让主持回顾性讨论的人加入并引导讨论走向最重要和最相关的问题。不仅如此,还有质疑讨论结果的空间,以确保所做的决定切实可行。

当然,最终的目标是你通过回顾发现的东西可以应用到你所做的事情中,改变你的实践以获得更好的结果。当您这样做时,您将希望确保新的实践被您的团队尽可能经常地使用。这意味着你需要找到标准化你所做的事情的方法。

做事的共同方式

提高团队效率的一个最常见的经验就是要有一个共同的目标,尽可能被团队的所有成员以同样的方式理解。对于数据科学家来说,这可能是一个挑战,因为缺乏对数据科学家的一致定义。然而,在一个特定的组织中,您至少有一些机会能够在您的直接环境中确定什么是数据科学家。

即使在对数据科学实践的共同理解的实践层面,数据科学家可能具有的各种背景也更加需要确保团队中的每个人对常用术语和相同的整体方法有相同的理解。

直觉上,分享愿景的最佳方式是共同创造愿景。许多团队凝聚力指南建议一起集思广益团队愿景。当我们讨论创建一个团队任务时,我们在第一章中提到了一些。

但是,实用的一面还是需要注意的。在许多行业中,例如通常在整个制造业中,自上而下地创建和实施高度标准化的过程。经常发生的情况是,预期使用它们的操作者对它们很反感。

数据科学团队的情况有所不同。这些标准流程只适合数据科学团队中相对较少的人使用。人数相对较少也意味着,与通常应用于大型制造商的情况不同,将标准实践作为一个团队来选择是非常实际的。

能够标准化流程的关键优势在于它减少了可变性。在制造过程中,其他几个优势也随之而来,但在我们的数据科学环境中,一个有用的优势是可预测性。通过一个可预测的过程,你知道你会得到什么,以及需要多长时间才能得到它。这些优势对于赢得信任的过程也非常重要——可预测的能力意味着你可以做出承诺,并知道你能信守承诺。

注意,你不需要被标准化这个词的含义所限制。也就是说,人们可能会错误地认为标准化仅仅意味着创建一个所有人都遵循相同方式的“黑函”流程。然而,也有不采用这种方法的标准化方法。

例如,考虑敏捷宣言, 2 ,它被表达为一系列偏好,而不是预先确定的选择。这个想法可以扩展到其他领域,意思是“首先尝试这个”——例如,您可以在建模中制定一个准则,即您总是首先尝试逻辑回归,然后转向更复杂和更不透明的模型。

“软”标准化的另一种方式是创建边界。举一个与上一个类似的例子,你可以有一个规则,对于某一类问题,你永远不会使用 k-最近邻(或其他一些对你的典型数据类型没有产生好结果的算法)。

在数据科学环境中有效实现标准化的其他方法可能包括:

  • 目标变量的标准定义:例如,在根据对您的组织有意义的时间窗口考虑目标时,您是否有一个标准的起点?

  • 标准术语:吉尔说自变量,乔说输入吗?

  • 标准工具:你可能已经决定了一个标准平台/语言,例如,R 或 Python 或一个商业软件包——但是如果你已经选择了 R 或 Python,你是否已经为特定的常见任务标准化了首选库?

如果你把它们作为一个整体来决定,所有这些事情会更容易坚持。这也是对回顾会上经常出现的问题“我们需要在这个问题上标准化吗?”的一个很好的标准回应这样你面前就有了一个活生生的例子。

违反标准化往往比遵守标准化更受尊重——人们同意这通常是件好事,但却不去做,因为他们对它是什么或如何做有着过于刻板的想法。

如果你摆脱了这种刻板印象,你就可以在你的团队中打开标准化实践的大门,以一种你可以控制的方式,为你和你的团队工作。

你的团队需要的技能

数据科学家几乎痴迷于他们需要的技能。这可能是因为对数据科学家到底是什么一直模糊不清。如果一个数据科学家,就像他们说的那样,“比统计学家更会编码,同时比编码员更懂统计学”,那么在这两个方面学习的需要到哪里为止呢?

这一概念有时被称为独角兽数据科学家,通常建立在数据科学团队独立于其他团队工作的假设之上。因此,如果他们需要调配数据库,他们最终会自己动手。如果他们需要构建 UI,他们最终会自己动手。

对于原型设计或开发概念验证来说,这有时可能是真的,但在比数据科学团队本身更大的公司中,更有可能会有人专门负责做这些事情。例如,他们可能以各种各样的名字存在,但很可能有人的工作是数据库管理员的后代,并且他们通常在数据科学功能出现之前已经在您的组织中存在很长时间了。

在他们存在的地方,您有机会将工作转移到数据科学团队之外,这简化了您需要维护的技能。不要担心,仍然会有一长串只能在数据科学团队内部完成的事情。事实上,正是因为这个清单很长,你才需要小心避免做那些你不需要做的事情。

您需要关注的工作是其他人无法轻松完成的工作,或者至少需要数据科学团队内部的理解,以确保最佳结果。

第一个例子是模型评估——除了在数据科学团队中,这些技能在其他任何地方都找不到,所以它们最好存在于数据科学团队中,并且表现良好。

另一方面,尽管对业务的理解显然可以在其他地方找到,并且通常比数据科学中的理解更好,但它不能像构建 ETL 那样被外包——足够水平的业务理解在数据科学团队中是必不可少的。

因此,在开发技能清单时,您需要在两个层面上进行开发。一个层次是你的团队内部的,另一个层次是你的团队相对于组织的其他部分。

还要考虑数据科学招聘广告通常是根据掌握的工具列表或特定技能领域来设计的。具有正确思维方式的人通常相对容易掌握技术技能。这些心态本身更难被轻易接受。

例如,您可以将人们分为“构建者”和“分析师”——希望构建数据产品的人和希望分析数据以了解它如何应用于问题的人。这些是非常不同的心态。另一种不同的角色是“扳手”从某些方面来说,斯潘纳就是许多人眼中的数据科学家——他们是跨越建筑商和分析师之间,或者数据科学家和数据工程师之间的鸿沟的人。再说一遍,尽管要想在这个职位上取得成功,确实需要跨领域的技能。

对组织中其他领域可用的技能有深刻的理解,通常可以减轻数据科学团队的一些压力,并帮助您在需要招聘时保持所需技能列表的可控性。

摘要

数据项目需要数据科学团队来完成,但数据科学家通常专注于项目的技术细节,而不像他们应该做的那样担心他们的团队如何工作,甚至不知道数据科学团队与其所属组织的其他成员合作得如何。

敏捷中至少有一些人性的一面。回顾是为了捕捉一些人类的问题,尽管它们有时被认为是敏捷中更难做好的方面之一(尽管你不需要正式成为敏捷来进行回顾)。

虽然有许多执行回顾的指南,但确保您成功讨论流程中最相关的人的问题并发现实际解决方案的一个关键要素是确保人的方面得到适当的讨论。当与一群根据技能挑选的人打交道时,这通常需要有人将谈话引向正确的话题。

共享标准化的方法和标准化的愿景也是提高团队凝聚力和团队效率的重要方法。在数据科学中,与医学等职业相比,培训的标准化程度可以说更低,因此更加需要采取审慎的步骤来实现标准化。

了解组织中其他领域的技能可以帮助您将自己团队中的技能需求保持在可管理的范围内。确定不需要在你自己的部门内发生的工作,这样你就不需要经常保持那些技能,你可以简化你自己的流程。你也可以简化你所在区域的人员类型,从而提高凝聚力。

然而,标准化并不一定意味着经常与这个词联系在一起的那种严格的过程。有一些创造性的方法可以提供指导方针,而不会对你的团队成员创造性的工作方法施加繁重的限制。

团队效率清单

  • 你是否创建了一个团队回顾的过程,在分享以前项目的经验教训方面考虑了正确的事情?

  • 在进行回顾时,你有没有练习过如何引起对人的因素的额外关注?

  • 你在回顾中所做的决定会延续到你日常的工作中吗?

  • 您是否创建了数据科学概念和业务概念的标准术语供团队内部使用,以及对优先级的标准化理解?

  • 你是否根据团队中每个人的意见创建了一个团队愿景?

  • 您是否评估了您的数据科学团队所需的技能,考虑了您组织中其他地方可用的技能,以确保您的团队成员发展正确的技能组合?

八、后记

在本书的过程中,我们开发了一个数据科学项目战略,其中包括发现客户真正想要什么的开始阶段,以及了解您的团队在满足该需求的过程中所扮演的角色。现在是时候后退一步,看看全貌了。

成功的数据科学项目和失败的数据科学项目有什么区别?一个成功的数据科学项目始于对客户需求的清晰了解,止于可以在可用平台中理解的结果,在此过程中,项目负责人必须让人们相信项目是值得做的。

从头到尾检查流程不仅能让您了解在旅程中的任何特定时刻需要什么,而且要了解更大的图景还需要您后退一步,思考不同区域之间的关系,以及如何开发一个通用框架来提高您的数据科学团队和数据科学项目的效率。

在这个通往更好的数据科学项目的旅程中,有一个词不断出现:信任。当你试图让某人信任你时,最大的问题是它不会在一夜之间到来——相反,获得某人的信任是一个渐进的过程,类似于创作一幅油画所需的阶段,从最初的草图到详细的着色。

对于数据科学家来说,试图获得组织中其他人的信任或试图赢得客户的信任似乎非常缓慢。做模型很快。像数据准备这样的活动要慢得多,但还是比不上说服别人信任你那么慢。

幸运的是,正如我们所看到的,一个单独的项目通常会提供许多建立信任的机会。当你第一次与有问题的人接触时,有一个至关重要的机会——你可以通过倾听和理解他们的问题来赢得他们的信任,这与你实际解决他们的问题几乎是一样的。

获得信任意味着不浪费机会。在千禧年开始时出版的一本食谱提倡从鼻子到尾巴吃东西。作者的一句口号经常总结了“从头到尾吃东西”的哲学,“如果你要杀死一只动物,把整个东西都吃了才是礼貌的。”在数据科学中,如果你要占用某人的时间和他们的数据,礼貌的做法是你发现所有可以这样做的经验教训。

每次有人让你解决他们的问题,他们都在冒险。通过理解解决某人的问题是一个千载难逢的机会来回报这种风险。你参与的任何项目都会给你很多机会去说服别人信任你,即使这个项目没有最终实现。

不要浪费那些机会,尤其是那些你似乎错过的机会。毕竟,充分利用一个结果良好的项目并不是什么大挑战。问题是,会有一些项目结果不太好,你仍然需要充分利用这些项目。

为了最大限度地利用这些错过的机会,你需要尽可能地从更广阔的视角来看待可能的教训。如果您从数据科学项目中学到的是如何更好地与您的本地数据库管理员合作,那么这是有价值的,如果你们两人现在有了更好的工作关系,那么您应该感谢帮助您一起在数据中找到有价值的东西的客户。

充分利用别人给你的东西只是出于礼貌。

在你的模型中建立信任是一个良性循环。当你尽可能地与客户密切合作时,你就创造了他们想要的东西。当你建造他们想要的东西时,他们会更自由地与你谈论他们的真实需求,你也更有可能建造他们想要的东西。

诚然,也有例外,而且有可能出现的情况是,违背合理预期的成功会得到新的不合理预期的回报。即便如此,赢得人们的信任要容易得多,因此,通过在你所做的事情上取得成功,并说服他们你可以给他们更多的时间,来确保他们给你时间。

失去信任是另一个方向。如果他们不信任你,他们就会变得越小心翼翼,对他们真正想要的就越不开放,你构建的东西就越有可能不符合他们的要求。另一个结果是,最后期限的选择可能变得不那么合理——如果需要改变,也会变得不那么灵活——从而进一步加深信任赤字。这确实是一个恶性循环。

更好的做法是进入一个通过增加你成功的机会来回报你的循环,而不是打败它。此外,如果没有别的,这本书应该已经表明,你有相当大的控制人们对你的工作的反应方式。

数据科学成功的核心是你的项目为人类解决问题的能力,这意味着理解人类在某个地方想要什么。它意味着避免依赖算法,并确保您依赖团队自己的人类直觉。人类的直觉将会弥合模型本身所能做的和人们实际想要的之间的差距。

在人类方面取得成功需要更多的人类互动,而不是花更多的时间开发模型。

数据科学中人的一面通常也是隐藏的一面。通过了解你的用户参与你所创造的东西的方式,你将确保他们会欣赏你所创造的最大潜力。你也将更有可能被邀请回来帮助更多的项目。

只要你的团队记得,被邀请回来并不是一定的,而是取决于他们如何让你的用户相信你的工作的价值,你的团队就会被接受站在他们的用户一边,并因他们的成就而受到称赞。

只要你记得团队的表现如何影响人们对你所做的事情的评价,你的声誉就会提高,你将在职业生涯中继续享受越来越多令人兴奋的机会。

数据科学对许多人来说意味着许多事情。无论您来自何方,我希望并且相信,您可以应用本书中的一些内容来确保您组织中构建的数据科学产品能够成功地让您的用户生活更加轻松,并促进数据科学成为解决许多环境中问题的强大工具。

posted @   绝不原创的飞龙  阅读(36)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· Trae初体验
点击右上角即可分享
微信分享提示