为什么准确的模型并不总是有用

经济效用函数如何帮助您将模型与客户联系起来

Photo by Afif Kusuma on 不飞溅

首先让我说，关于如何评估你的模型有很多优秀的技术内容。 F1 分数、MSE、MAE、Huber 损失、精度、召回率、交叉熵损失等指标是互联网上已详细讨论的术语。但是，这些指标通常侧重于使您的模型适合您的数据，而不是优化您的模型以适应您的业务——至少以直接的方式。

经常缺少的是一个经济分析框架来优化效用的模型。效用被简单地定义为客户可以从服务中获得的享受或价值的数量——在这种情况下是您的 ML 模型。

虽然 ML 课堂上没有教授这个概念，但我认为，就在现实世界中建立实用、持久的模型的重要性而言，进行经济分析和效用估计是最高的。在技术和非技术利益相关者的联盟共同努力为机器学习模型开发经济层之前，机器学习在您的组织中的商业价值和边际效用并没有得到很好的定义。

笔记： 这篇文章面向技术 ML 人员以及产品经理和使用 AI 产品的技术含量较低的利益相关者。这篇文章中会有一些数学，但我在这篇博客的结论部分包含了高级概念步骤。

带有二元分类器的 ML 示例

想象一下，你有一个优柔寡断的朋友，他永远不知道一部新电影是否值得一看。因为你是一个令人难以置信的好朋友和一个优秀的机器学习从业者，你决定构建一个简单的二元分类模型来预测您的朋友是否会喜欢或不喜欢即将上映的电影。

您努力为朋友观看的许多不同电影标记您的偏好。您进行一些特征工程并提取主要演员、流派、导演和其他特征以添加到您的训练数据中。您还添加了一个标签，表示您的朋友是否喜欢这部电影 (1) 或不 (0)。最后，您有一个如下所示的数据集。

Example movie preferences dataset, Image By Author

您遵循正常的机器学习协议并使用您最喜欢的分类器训练模型，并使用包含 300 部电影的测试集对其进行测试。

您发现您的模型具有相当高的准确度——90% 的标签被正确预测。鉴于此，您构建了一个基于此模型的应用程序并将其交付给您的朋友，这样他们就可以开始更加果断了！

几周后，你和你的朋友共进午餐，问他们是否在使用你的应用程序。您的朋友犹豫了一下，并透露虽然许多建议是准确的，但仍有一对没有达到目标，因此他们停止使用该应用程序。

当只有准确性不起作用时

分类结果

所以发生了什么事？为什么您的朋友停止使用该应用程序？

要回答这个问题，我们必须深入一点。在二元分类器中，您意识到实际上有 2 种方法可以是正确的，而 2 种方法可以是错误的。

下图是可能的预测结果。要了解假阳性、假阴性、真阳性和真阴性，请查看此关联 .

Image by Author

在你朋友的例子中，这些是 TP、FP、FN 和 TN 的定义

TP = 你正确地为你的朋友预测了一部好电影（标签 = 1，预测 = 1）

TN = 您正确地没有为您的朋友预测一部糟糕的电影（标签 = 0，预测 = 0）

FP = 你错误地为你的朋友预测了一部糟糕的电影。（标签 = 0，预测 = 1）

FN = 你错过了为你的朋友预测一部好电影的机会。（标签 = 1，预测 = 0）

Predictions and Outcomes in dataset, Image By Author

经济分析

在这个阶段，我们开始构建我们的经济层。第一阶段包括两个步骤：

列出与您的模型相关的所有收益和成本
衡量每个收益和成本的美元价值

在您为朋友设计的电影解决方案中，假设 FP 的成本是 20 美元的电影票和 2 小时的浪费时间。造成的情感伤害也有一些负面影响，您可以将其转换为特定的美元金额——在本例中为 12 美元。获得正确预测的好处对您的朋友来说价值约 50 美元。如果您的朋友错过了您的应用未能推荐的电影（您解释为 5 美元），他们也不会感到那么糟糕。

其中一些成本已经以美元计价，因此更容易分解。其他成本更难，因为它们是时间和情感成本，您必须深入了解您的朋友（或客户）才能量化。经过一番努力，您将上述内容合并为以下定义，以供您朋友的收益和成本使用。

A = 花费时间 = 10 美元

B = 观看烂电影的情绪伤害 = 50 美元

C = 错过一部好电影的情感伤害= 12 美元

D = 观看一部好电影的情感幸福感 = 50 美元

E = 错过一部烂电影的情感幸福感 = 5 美元

F = 电影票价格 = $20

这种寻找和衡量不同成本和收益然后将其转换为单一可解释货币的困难练习是构

桥接经济学和机器学习

您现在构建一个函数，将您朋友的量化成本和收益与分类结果联系起来。为了保持方程简单，我们添加了上述方程中定义的变量标签（A、B、C 等）。在这个阶段，我们将不同的收益和成本相加，为每个分类结果创造美元价值。

例如，误报是 80 美元，因为你加上了电影票的价格、看电影的 2 小时时间，以及看烂电影的情感伤害。 True Positive 是 10 美元，因为你的朋友看那部电影值 50 美元，但他们花了 40 美元的时间和金钱。为了简单起见，我们假设每部电影是 2 小时。

误报 = F+2(A)+B = $20 +($10*2) +$50 = $80

假阴性 = C = $12

真阳性 = DF-2(A) = $50 -$20 -($10*2) = $10

真阴性 = E = $5

效益成本比

现在所有的成本和收益都与我们的分类结果相关联，我们可以引入一个效用函数。这与调整最准确的模型不同。

可能有用的经济效用函数的一个例子是 效益成本比。 这是作为一般财务和经济分析的一部分进行的流行计算。 这个比率的高级解释是，大于 1 的值意味着收益超过成本，小于 1 意味着相反。

Image By Author

我们可以执行以下步骤：

计算 TP、TN、FP 和 FN 的数量
使用您为每个结果计算的成本作为权重来计算收益成本比

回到电影示例，回想一下，我们有一个包含 300 部电影的测试集，其中 90% 被正确预测。遵循上述指示后，您将获得每种分类器结果的以下数据点数量。

TP 预测 = 80 个预测

TN 预测 = 190 个预测

FP 预测 = 30 个预测

FN 预测 = 0 个预测

正如预期的那样，300 个预测中有 270 个是正确的（TP + TN）。我们可以看到有 30 个误报，一个 FP 的成本是 80 美元。

我们的成本效益比是预期收益总额除以预期成本总额。

[(重量 * TP) + (重量 * TN)] / [(重量 * FP) + (重量 * FN)]

我们的预期收益是 TP 和 TN，我们的预期成本是 FP + FN。如果我们应用为 TP、TN、FP 和 FN 计算的权重，我们可以创建以下等式。

[($10TP)] + [($5TN)] / [($80FP) + ($12FN)]

如果我们将所有计算出的数字应用于成本效益比：

[10(80) + 5(190)] / [80(30) + 12(0)] = 1750 / 2400 = .729

大于 1 的值意味着模型正在增加价值。在我们的例子中，该值为 0.729。这意味着尽管 300 个预测中有 270 个是正确的，但该模型正在伤害您的朋友。难怪您的朋友停止使用该应用程序！

二元分类之外的经济功能

我们也可以将此框架扩展到其他类型的问题。例如，在多类分类器中，您可以测量正确、不正确、遗漏和超出范围的话语，然后对这些测量应用相应的权重以产生收益和成本。您也可以使用一对一分类器在每个类级别上构建深度指标。某些类标签可能比其他标签具有更高的精度更重要，因此也许应该设置经济指标来优化这些类的子集。

无论您使用什么模型，应用这种经济分析来帮助您在生产中为您的模型确定正确的设置都不会受到伤害。

可操作的步骤和更深入的 ML 指标

既然您已经量化了朋友的偏好，您可能会决定需要一个模型来为您的朋友提供更少的推荐。实现这一点的一种方法是设置一个阈值，并测量该阈值如何针对您的效用函数起作用。根据我在大公司和小公司的经验，我看到阈值被任意设定，经济层将有助于增加一些背景，说明为什么阈值是这样的。还有其他方法可以为您的模型分配阈值，我不会在这里讨论。

F1 等更深入的指标确实考虑了精度和召回率（以及因此分类结果），与仅准确度相比，这可以更好地了解模型的执行情况。敏感性和特异性等概念是众所周知和讨论过的概念，并且与这篇文章有重叠。

即使在这些情况下，经济功能仍然很有价值，可用于将货币价值分配给不同的结果，并直接将您的模型与客户的需求联系起来。

现实世界中的经济功能

当然，现实世界比电影中的例子要混乱得多。整合收益和成本的过程可能需要多次迭代和大量时间。也很难衡量“情感伤害”等方面。要对此进行适当的衡量，需要对您的客户有非常深入的了解，即便如此，它也可能不是 100% 准确的。您应用的权重可能不正确，并且存在主观与以客户为中心的风险。

为了减轻偏见，创建这个经济层的过程落在了机器学习人员、产品经理和任何对客户有洞察力的利益相关者身上。

结论

在这篇文章中，以下是我们采取的高级概念步骤，经济层步骤加粗：

获取并准备您的数据
构建和训练模型
使用测试集生成预测
使用预测，标记分类结果（在二元分类器的情况下，TP、FP、TN、FN）
了解分类结果的成本和收益并转化为美元。这需要 ML 人员与非常了解客户需求的利益相关者合作。
用步骤 5 中计算的收益和成本值权衡分类结果
计算一个经济效用函数（或大于 1），在本例中，该函数是一个收益成本比
根据效用函数优化模型。这可能会影响准确性。在收益成本比的情况下，我们希望模型高于 1，而我们的原始模型小于 1。

总而言之，虽然人们普遍认为机器学习和人工智能为您的业务、客户和底线增加了很多价值，

如果你对这类内容感兴趣并想探索更多，这里有一些很棒的想法可以进一步探索这些关于如何连接经济学和 ML 的想法。

[

机器学习遇上经济学

商业世界充满了需要过滤或评估的项目流：装配线上的零件……

nicolas.kruchten.com

](http://nicolas.kruchten.com/content/2016/01/ml-meets-economics/)

[

机器学习遇上经济学，第 2 部分

通过使用机器学习算法，我们越来越能够使用计算机以...

nicolas.kruchten.com

](http://nicolas.kruchten.com/content/2016/04/ml-meets-economics2/)

[

为什么效用确定对于定义 AI 成功至关重要

似乎有无数文章预测人工智能将推动令人难以置信的经济和社会增长。为了…

www.linkedin.co

](https://www.linkedin.com/pulse/why-utility-determination-critical-defining-ai-success-bill-schmarzo/)

本文链接：https://www.qanswer.top/24600/45071009

posted @ 2022-09-10 09:47 哈哈哈来了啊啊啊阅读(36) 评论(0) 编辑收藏举报

刷新页面返回顶部

amboke

为什么准确的模型并不总是有用

为什么准确的模型并不总是有用

经济效用函数如何帮助您将模型与客户联系起来

带有二元分类器的 ML 示例

当只有准确性不起作用时

分类结果

经济分析

桥接经济学和机器学习

效益成本比

二元分类之外的经济功能

可操作的步骤和更深入的 ML 指标

现实世界中的经济功能

结论

机器学习遇上经济学

商业世界充满了需要过滤或评估的项目流：装配线上的零件……

机器学习遇上经济学，第 2 部分

通过使用机器学习算法，我们越来越能够使用计算机以...

为什么效用确定对于定义 AI 成功至关重要

似乎有无数文章预测人工智能将推动令人难以置信的经济和社会增长。为了…

公告