沃顿商学院商业人工智能笔记-八-

沃顿商学院商业人工智能笔记（八）

P68：5_机器学习的工作原理.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

我们讨论了人类决策和基于规则的系统，在这些系统中，软件开发者可以将某人的专业知识融入软件中。

机器学习在一定程度上改变了这一范式。

所以机器学习本质上是模式识别。机器学习的作用在于它使用示例。

我们称这些训练数据为生成决策框架。

关键在于机器学习实际上是关于展示而不是讲述。

所以不如让一个人解释他们是如何做某件事的。

你所做的是提供大量大量的例子。

而机器本身学习如何构建决策框架。

这完全改变了工作流程。它从数据开始，而不是对专业知识的编码。

机器学习的关键在于提供一套规则，而不是基于专业知识提供指导。

你只需提供大量大量的数据，这些数据作为机器学习算法的示例。

计算机达到了一个最优的映射。因此，例如。

而不是提供大量关于什么因素或变量的信息。

假设我们有很多关于申请该公司的候选人的信息。

而不是提供专业知识或大量关于特定组织在候选人中重视什么的信息，以及如何思考评估不同因素或优先考虑不同候选人。

你可以选择用机器学习系统或构建机器学习系统来提供大量关于申请者的历史数据。

这些不同的因素，即申请人资料的不同部分。

关于候选人的最终决定已经做出。

所以想象一下，你拥有这种数据，其中包含关于候选人的大量信息。

然后你会了解到关于候选人最终做出的决定的信息，无论他们是否被邀请参加面试。

在这里的第二种情况下，当我们拥有这些数据时，机器学习算法可以仅通过观察数据来学习它们应该如何思考或应该如何思考。

或者它应该如何考虑等待申请人作品集中的不同部分。

是否应该优先考虑以往雇主的经验、特定技能等。

你从来不需要告诉它。人类专家从来不需要准确告诉它对特定组织或上下文来说什么是重要的。

从展示的示例数据中，它可以学习该做什么。

所以这就是机器学习与之前使用的一些系统或方法之间的区别。

所以这在多个方面都是一个变革性的进展。这是为什么呢？

我们为什么会认为这种使用示例的方式是具有变革性的？

为什么我们认为机器学习系统是变革性的？

首先，它改变了工作流程。一个我们讨论过的基于规则的系统的例子是我们需要接触专家。

在某个环节，我们需要人类的专业知识。

而这可能会很昂贵，尤其是涉及到真正专业的高技能专家。

获得这样的专业知识可能很困难，而且向这样的专家请求解释他们对某一知识领域或应用的所有了解也可能很困难。

在机器学习的案例中，我不需要专家，我需要专家生成的数据，所以也许我可以走到医院，获取从业者做出的之前的决策或医疗预测的数据。

如果我拥有那个，我就不再需要实际专家的帮助。

这也是一种变革，因为在某些情况下，你拥有的数据量如此庞大，以至于人类专家根本无法有效地将所有信息进行综合。

所以我们讨论的例子中，我们提到了投资组合的几个不同部分，但在许多机器学习案例或信息上下文中，你可能面临的不仅仅是三或四个变量，而是成千上万的变量在影响预测。

在金融领域的广告空间，有时在环境领域，比如你可能会有成千上万的变量，认为一个人类专家能够一次性考虑所有这些信息来得出预测，这有点过于雄心勃勃，但机器学习算法可以做得相当不错。

如果你提供两千个变量，并且有这些最终结果的例子，在这种情况下算法可以做得相当不错，往往比一个人做得更好，因为人可能会觉得一次性综合所有这些信息非常困难甚至不可能。

这也是具有变革性的，因为一旦我们建立了算法，显然可以大规模运行它，无论是查看十份简历、一百份简历、一十万份简历，还是一千万份简历都没有关系。

这在很大程度上是恒定的，所以一旦我们把它启动并运行，它的扩展性非常好。

这也是一个非常一致的特点，这是像这样的系统的一个不错的特性，因为它是一个算法，它倾向于在给定相同信息的情况下做出相同的决策。它不会在一天中感到疲倦，也不会在周日相对于其他日子开始犯错误，它非常一致。

在某些情况下，这真的很重要。所有这一切的关键在于训练数据，这些你输入系统的示例是构建这些系统并实现这些好处的关键，这就是我们将在下一个视频中讨论的内容。

[空白音频]。

P69：6_训练数据在机器学习中的角色.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

开发机器学习系统的关键在于能够为算法提供示例。

从中它可以学习。这被称为训练数据。因此再一次。

这是这些系统的关键。一个算法利用这些训练数据来学习你所需的正确映射函数。

可能会在输入的信息与最终预测之间说到这一点。

需要或将要到达的。我们称之为标记数据的这些示例是可以用来教授的示例。

机器，你可以把它们看作是为不同案例条件提供正确答案的示例。

回到我们申请人筛选的例子，你可能会考虑申请者的申请。

拥有不同背景类型的申请者。如果你有一个数据库，其中有大量不同背景申请者的例子。

和标记数据，这些实际上是人力资源历史上做出的决策。

由招聘人员进行的实践者。这教会了机器在不同条件下该怎么做。

所以通过查看所提供的例子以及不同申请者的背景。

在那些不同的背景下，决策者所做的事情，机器学习如何思考。

不同的案例条件以及应该得出的决策。

现在如果我们考虑到人工智能的复苏，对人工智能的兴趣增长，当然。

最近的变化相当戏剧化，主要集中在机器学习及其相关领域。

这一切实际上是受到大量训练数据源可用性扩大的推动。

所以这两点是以非常紧密的方式相互关联的。

想想机器学习的增长。机器学习之所以如此成功，是因为它可以基于训练数据进行构建。

训练数据变得越来越容易获得，种类繁多。

应用背景。因此，有很多地方可以获取训练数据，或者公司可以获取训练数据。

所以档案数据可能是最常见的地方。这个就是历史数据库。

企业拥有大量关于历史信息的数据库。将会有价格。

将会有市场营销，将会有会计，将会有人力资源。

公司内部有大量的档案数据源可以用来训练机器。

学习系统。通常情况下，你还可以生成训练数据。

你可以使用各种平台生成带有示例的数据库。

假设你有一组数据集的信息，比如说你又有一组数据集。

回到我们的申请者示例，一个申请者的数据集，您想要生成决策。

即使你没有历史数据可用。

你可以让公司里的某个人坐下来，人工做出决策，仅仅是为了创造。

那些指导，那些标记的示例用于机器学习算法。

你也可以将这些外包给一个平台。有很多平台可以接受信息并开始进行标注。

它或者为你做出决策，以便你可以将这些数据用作训练数据。

你可以用那个作为构建算法的例子。所以再次。

为了将其放入不同示例的工作流程背景中，让我们谈谈X射线。

因此，AI机器学习真正取得突破的一个领域是诊断影像学。

医疗领域。因此，一些现代系统、机器学习系统可以查看医疗图像并做出预测。

关于某人是否有某种健康状况的问题。

这显然在健康领域对从业者有巨大的潜在利益。

对于患者来说。那么，在机器学习工作流中，你会想要大量的数据和。

许多许多的图像和医生历史上对患者所做的决策列。

有了那些图像。如果你将这些数据输入到机器学习系统中，那么又会如何。

你输入到系统中的只是图像本身以及例如放射科医生所做出的决策。

这就是机器学习算法模仿决策所需的一切。

一个训练有素的医疗工作者能够查看图像并做出预测。

所以我永远不需要退后一步去学习任何关于医学的知识。

我从来不需要与放射科医生讨论他们在图像中寻找的内容。

我所需要的只是一个包含成千上万张图像的数据集和最终决策。

这是已经完成的，而机器学习算法可以完成其余的工作。

它可以学习图像数据与应做出何种决策之间的正确映射。

这就是为什么AI经济如此重视数据的原因。

是真正推动人工智能的关系。这就是数据的可用性，比如这些数据源，或者说这实际上是促成这一切的原因。

将机器学习应用于如此多的可能场景。

所以简单总结一下最后几点，专家系统不需要数据。

基于规则的系统不需要数据。它们需要人类专家来指定人们在决策方面应该如何思考。

进行制作，也许开发者将其转化为代码。机器学习不需要专家，但确实需要专家生成的示例。

这需要算法可以用来找到正确映射的数据。

就这样。谢谢。感谢你。谢谢。 [空白音频]。

P7：6_从大数据中提取情报的数据分析.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

在本次讲座中，我们将讨论数据分析。特别是，我们将开始。

通过讨论数据挖掘。现在数据挖掘是一个广泛的术语，指的是发现工具。

大型数据集中模式。为了理解数据挖掘到底是什么，了解。

与许多人理解的简单统计方法进行对比，。

回归分析。现在，当我们进行回归时，可能会从一个假设开始。

例如，我们试图理解预测客户是否会。

可能违约并且不支付他们的信用卡欠款。因此我们可能提出一个假设。

违约的风险取决于许多因素，例如他们是否在过去违约。

在过去。也就是说，我们假设之前违约过的人是。

再次违约。我们可能还有一个假设，即有大量。

信用卡数量可能会违约，因为他们可能在努力管理。

他们的财务状况。最后，我们可能有一个假设，即有工作的人可能会少。

可能违约。现在，回归的目标可能是测试这些假设。因此我们可能。

基于过去的数据运行回归，测试一个人违约的风险。

这是否取决于这些因素，即之前的信用卡违约数量以及是否。

他们是否有工作。回归告诉我们这些因素是否重要。因此。

它还告诉我们这有多重要。因此在幻灯片上，你可以看到一个人是否。

在过去是否违约对他们未来是否再次违约有影响。

回归系数0.93告诉我们这有多重要。现在，请注意所有。

这些重要变量如信用卡数量，是否有工作。

是否他们在过去有过违约。这来源于分析师的假设。

这就是传统数据分析的核心。这就是回归的核心。

也有测试。相比之下，数据挖掘更侧重于数据驱动的探索。因此它。

可能不会像我之前提到的那样以假设开始。有许多不同的。

是数据挖掘的一部分的技术。实际上，数据挖掘是一个笼统的术语。

一些这些技术。我不会覆盖所有的属于。

数据挖掘的技术确实有一大堆。但是我将。

回顾几个有用的例子。第一个是聚类。聚类是一种数据挖掘。

用于对数据进行分组的技术。因此，聚类本质上会将我们的数据分开。

我们的数据被分成一堆更小的组或簇，使得簇内的数据点。

彼此相似，而不同簇中的数据点则彼此不同。

聚类的一个经典应用可能是在确定顾客细分中，在我们的数据中。

传统的顾客细分方法可能是凭直觉。一个市场经理。

可能会根据他们的经验说我们有三种顾客细分。而且。

他们可能会用一些顾客的人口统计数据来描述这些顾客细分。比如。

他们可能会说其中一个顾客细分可能是四口之家的足球妈妈。

住在郊区的五个人。也许这就是他们如何表达的。

其中一个顾客细分是这样的。相反，当你使用聚类时，我们试图弄清楚。

从数据驱动的方式中找出顾客和顾客细分，而不依赖这些假设。

而聚类可能会验证经理的直觉，并可能指示和展示。

郊区足球妈妈的购买模式与其他购买模式不同。

其他顾客的情况。或者这可能暗示差异并不是那么重要。

也许我们应该以不同的方式来思考顾客细分。另一个。

数据挖掘工具是关联规则挖掘。关联规则挖掘是一种数据挖掘技术。

找到数据中常见的共现。例如，我们可能会分析购物车。

在杂货店的数据或顾客购买模式中。我们可能会查看常见的。

其中的模式。关联规则挖掘软件可能会找到一种模式，例如人们。

在一笔交易中倾向于购买面包和黄油的顾客，也倾向于在同一交易中购买牛奶。

如果我们找到这个交易，我们可能会基于此采取行动。例如，一个传统的。

在实体杂货店中，这意味着一个实体杂货店可能决定存货面包、黄油和。

附近的牛奶。或者一个在线杂货店可能决定如果顾客已经添加了。

如果他们将面包和黄油加入购物车，那么它将向系统推荐。

顾客也会添加牛奶。关联规则挖掘技术有很多应用。

在商业数据中寻找这些数据中的模式。另一个例子可能是应用。

在医疗保健中。我想到的一个例子是对雷诺兹病的分析。

这项工作是由名为唐·斯旺森的计算机科学家或信息科学家完成的。唐·斯旺森。

对于研究雷诺兹病很感兴趣，这是一种影响肌肉骨骼系统的综合征。

他特别感兴趣的是识别雷诺兹病的新治疗方法。

因为那时对雷诺兹病或雷诺兹综合征的已知治疗方法并不多。

综合征。为了回答这个问题，唐·斯旺森查看了许多关于雷诺兹的研究论文。

疾病并发现与雷诺兹病相关的概念。换句话说。

与“雷诺氏病”一词常见的共现是什么？他发现血液。

粘稠度是一个常与讨论雷诺氏病相关的术语。他也。

发现肌肉骨骼问题常在讨论雷诺氏病的文章中出现。

例如，他发现讨论雷诺现象或雷诺氏病的文章。

综合症提到雷诺综合症期间血液粘稠度的增加。接下来，他问什么。

其他一些概念通常与血液粘稠度和肌肉骨骼有关。

虚弱。他发现一个概念，即EPA或二十碳五烯酸，常被讨论。

除了血液粘稠度，还有肌肉骨骼虚弱和其他一些概念。

与雷诺氏病相关。例如。

他发现诸如EPA或二十碳五烯酸等短语有助于降低血液粘稠度。相反。

雷诺氏病会增加血液粘稠度。EPA也与增强肌肉骨骼系统相关，而与之相反。

雷诺氏病与肌肉骨骼系统的虚弱相关。基于此。

唐·斯旺森提出了EPA的假设，这种物质常见于鱼油中。

可以帮助治疗雷诺氏病。实际上，后来的临床试验显示鱼油。

是治疗雷诺氏病的有效方法。现在，我应该在这里澄清，唐·斯旺森确实。

不使用关联规则挖掘软件。相反，他用了相同的想法并手动进行了。

但在他后来的研究中，他谈到了他的科学过程如何可以自动化。

使用寻找数据中常见共现的工具。

这就是关联规则挖掘软件的核心。现在。

数据挖掘技术如聚类和关联规则挖掘。

最终是在数据中寻找模式。下一步不仅仅是寻找模式。

也许是为了预测未来并采取相应行动。例如。

我们能否预测未来对我们产品的需求，并基于此做出生产决策？

我们能否预测刚发生的交易是否是欺诈？这就是关键所在。

预测分析的领域进入了。让我们看看一些示例。

我们可以通过预测分析做到这一点。让我们看看像亚马逊这样的大型零售公司。

一个客户可能会访问网站。他们可能会实际查看或浏览几个产品。

他们最终可能会为这些产品付款，而商品由亚马逊发货。现在。

零售商的目标是说服客户购买产品。

通常像亚马逊这样的零售商会向消费者展示推荐。例如。

推荐，例如购买此商品的人也购买了此商品，或查看此产品的人。

也查看了该产品。在这些推荐的核心是试图找出。

找出客户可能对哪些产品感兴趣。这最终希望能够。

说服客户购买产品。这是一个预测分析应用的例子。

试图预测客户可能对哪种产品感兴趣。

另一个例子可能是，当客户准备购买产品时，他们可能会输入他们的。

信用卡信息并立即点击购买或现在购买。在此时，算法在。

零售商的网站需要判断这是否是一次合法交易。

特别是，信用卡是否是由下单的客户合法拥有的信用卡。

订单是否可能被盗。在这里，预测分析技术查看过去的。

数据并尝试预测该交易是否存在欺诈行为。最终，这只是一个。

这是零售中预测分析的一个例子。实际上，这些方法有很多应用。

在下一个模块中，我们将探讨这些预测分析技术。特别是。

我们将把机器学习视为一种工具，用于进行可操作的预测。

[空音频]。

P70：7_结构化数据之外的特征工程.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

我们讨论的机器学习示例有点让人明确。

假设数据的格式使我们能够考虑评估不同的条件。

数据。因此，我们在某种程度上讨论了或隐含地讨论了这些例子，您可能会遇到。

数据以电子表格的形式组织。因此，考虑多个列，每个列都有一些信息。

关于申请者。因此，你可能会有不同的栏目来包含你关心的信息。

然后你将利用这个来做出决定。

正如我们之前讨论的，如果你以这种方式组织信息并且你拥有。

关于决策的信息，机器学习算法可以学习如何进行导航。

不同条件下做出决定。

然而，数据并不总是如此结构化，而且在机器学习中有很多的兴趣。

真的关于在非结构化数据上使用机器学习的能力。

不容易放入电子表格列的数据。

想象一下，使用在线评价来预测一些关于餐厅的情况，或者使用诊断。

我们之前谈到的图像可以用来预测患者的某些信息，或者在HR的情况下，使用简历。

原始简历文本本身用于预测申请者的一些信息。

在这些情况下，特征经历了一个工程过程，即特征工程。

这是从原始非结构化数据中提取特征的过程。

以一种可以用于机器学习算法的方式。

所以这就是将原始数据提取并转换成一种格式。

你可以把这看作是一个带有列的电子表格。

所以如果你有原始简历数据，你会将简历中的哪些部分提取到列中呢？

开始为你的机器学习预测算法使用。

这是一项耗时且相当具有挑战性的过程。

这通常还需要相当多的领域专业知识。

因此，对于我们讨论的任何诊断图像的上下文来说，它是必需的。

需要相当多的专业知识来思考图像中哪些内容需要提取出来以开始。

对于图像做出预测。这听起来似乎没那么麻烦，原因我们稍后会讨论。

在这里，但了解特征工程是这个过程的重要组成部分是很有用的。

这正是将这些非结构化数据集与机器学习过程连接起来的关键所在。

这是一个概念，即你可以处理原始数据，未经过整理的原始非结构化数据，这些数据不容易被组织。

在列中，你可以利用这些来进行预测。

在人力资源领域，这一点变得越来越重要，尤其是对于越来越多的公司和小型企业。

科技领域的公司正在考虑使使用其他信号成为可能。

从采访中获取音频或视频，以预测员工表现。

所以你可能听说过一些公司或工具，可以让你录制申请人的面试。

能够记录申请人对问题的声音回应，并且该信息本身可以。

可能会告诉你一些关于申请者的信息。为了成功实现这一点，它必须经过这个特征工程过程。

是从音频信号开始，还是从视频信号开始，然后再进行特征工程。

从这些数据中可以提取出信息，进而用于进行预测。

现在我刚刚评论过这个概念，认为这并不是一个很大的问题。

听起来是这样，这其中一个原因是深度学习的出现。

因此，深度学习在这里本质上开始展现其光芒。

因此，深度学习可以帮助绕过这个特征工程过程，因而它是一个真正的。

深度学习的一个优势是能够处理这种原始的非结构化数据，并且。

直接进行预测，这样我们就可以绕过这个需要思考的过程。

如果我们看一段视频，那么关于这个人的手势或面部表情，是什么呢？

真的重要的是表情或声音，这在某种程度上最终是一个猜测游戏。

深度学习将让我们在某种程度上绕过这个过程。

利用所有原始信息进行预测，而不必走弯路。

通过特征提取过程。

。。 [空白音频]。

P71：8_评估机器学习性能.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

当我们试图决定时，有许多因素我们可能需要考虑。

以算法方式做好预测工作。

有多种方法可以衡量绩效，我们不会讨论所有这些方法。

今天我想提到一些你在谈论时可能会遇到的。

算法或听说它们在不同商业环境中的应用。

所以有不同的性能指标，名称如准确率、精确度、召回率、特异性。

所有这些都是衡量机器学习算法表现如何的不同标准。

那么，我们为什么需要这么多？我们为什么有那么多不同的性能指标？

原因在于，预测最终嵌入在商业背景中，并且有所不同。

错误的类型有不同的成本和收益。

当我们构建一个推荐算法时，我们可能希望根据权重进行调整。

关于不同类型错误的代价有多高。我们可能不仅仅想在一件事上进行优化。

我们可能希望在其他方面进行优化，具体取决于该特定环境中出现的错误。

所以，例如，考虑一个将简历推进到面试阶段的算法。

所以根据这些简历数据，它预测候选人最终是否可能。

被雇用，因此它基本上是在预测或建议某个公司或雇主应该。

给这个候选人面试的时间。因此，考虑一下这个问题或业务问题，也就是说我想确保绝对的。

我不会错过任何潜在的优秀候选人。在一个非常紧张的劳动市场中，你正在寻找拥有非常稀有技能的人。

你不介意花时间在一些可能不太合适的候选人身上，只要。

因为你想要确保自己不会错过任何潜在的优秀候选人。

在这种情况下，优先考虑确保你看到的任何强有力的候选人都能出现。

数据中的预测被认为是有力的候选者。

并相信这一点适用于一个不同的市场，在那里你可能会说我不想浪费。

我们组织中的任何人花时间与一位不太合适的候选人交谈，都是不值得的，对吧。

所以可能在候选池中有很多潜在候选人。

这个职位不难填补，但使用我们自己员工的时间成本非常高。

评估人选。所以你不想浪费任何人的时间在一个结果不佳的候选人身上。

在这种情况下，我们希望确保不对任何不是……的人进行标签或预测。

很有潜力的候选人可能会意外被预测为强有力的候选人。

所以在这两种不同的情况下，我们可能在优化两件不同的事情，以及我们所认为的。

关于在进行算法预测时需要避免的重要错误。

事实证明，存在权衡。因此，当我们考虑这些系统时，往往必须选择其一。

在投票中表现得很好是非常困难的，因此优先考虑哪个投票是很重要的。

这些我们真正关心的是什么，再次根据业务应用背景而定。

这些错误的代价可能有高有低。

而这最终归结于这些的相对成本是什么。

各种不同的错误。这些假阴性或假阳性有时被称为。

这些错误给你造成的成本是多少？错过一个优秀候选人是否更贵？

浪费员工时间在一个最终不会被录用的候选人身上是否更昂贵。

适合。接下来的视频中，我们将讨论一个将这些概念结合在一起的端到端示例。

谢谢。下一个视频。[BLANK_AUDIO]。

P72：9_端到端示例.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

让我们谈谈与机器学习相关的一些我们提到过的概念。

相关的训练数据，以及它在整体工作流程中的结合方式。

那么我们来谈谈我们一直在处理的例子，即申请人筛选。

所以想象一下，我们想要构建一个系统来自动化这个过程。

候选申请将在面试中展示。那么整个工作流程是什么样的？

所以我们要做的第一件事是收集以往决策的历史数据。

之前做出的良好决策。因此，我们想确保选择的是由我们所信任的人所做出的决策。

知道在这个特定领域拥有丰富的专业知识。

所以我们将收集关于良好决策的历史数据。还有，再次。

在这个阶段，我们不需要了解任何关于人力资源或组织的内容。

只要数据来自于我们正在研究的特定商业背景。

这就是为什么机器学习如此具有变革性和强大。

所以第一步是从某个来源收集过去良好决策的历史数据。

它可以是档案数据。它可以是你专门为这个任务生成的内容。

这可能包括在此情况下的简历数据测试分数。如今，这种情况越来越普遍。

这包括你在访谈中收集的视频数据，以及访谈的音频转录。

以及其他非常规的。

产生或生成数据的来源。现在，只要我们有强标签。

只要我们有强有力的意义，专家会如何将这样的数据映射到最终决策的例子。

我们实际上不需要了解这些数据是如何重要的。

思考候选人的表现，这将被自动映射。

机器学习算法。

比如，我们不需要知道或事先了解音频是如何工作的。

转录本可能与候选人质量相关。机器学习将会自行学习这一点。

而且，随着现代机器学习的发展，数据越多越好，因此这些数据集越大。

我们对数据的访问越多，这些机器学习工具的表现就会越好。

所以我们将从数据开始。我可以访问数据。然后我们将指定一个模型。

确定它是什么。我们正在努力优化我们关心的错误。

然后我们将运行并优化模型，以确保其表现良好。

不仅仅是我们正在使用的数据，构建模型所用的训练数据。

我们还将确保它在一个我们称之为保留样本或测试数据的情况下能够良好运行。

所以我们在这个过程中想要做的是利用这些训练示例来构建模型。

然后在其他样本数据上测试模型的性能。

只是为了确保它在我们不需要的数据样本上运行良好。

还没有习惯实际构建模型本身。因此，这个过程也是机器学习工程过程中的一个重要部分。

只是为了确保它在现实世界中处理见过的数据时表现得足够稳健。

不仅仅是用于训练模型的数据。在我们对其性能满意之后。

我们已经进行了这些测试和检查，以确保它能达到最佳性能。

关于我们关心的错误类型，我们已经准备好进行部署。

所以你现在可以开始对候选人的输入数据进行预测，而我们并不知道答案。

所以，我们再次以我们知道的良好历史数据为起点。

我们使用这些数据来训练机器学习算法。

我们确保它在样本外数据上表现良好，我们对此表现感到满意。

然后我们可以在现实世界中部署该算法。

[空白音频]。

P73：10_人力资源中的AI应用.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

到目前为止，我们讨论了两件事。

首先，我们讨论了在某种独特挑战中管理人员的问题。

它创造了什么，以及组织如何倾向于应对这些挑战。

索尼还向你展示了机器学习的魔力。这些新工具和技术。

技术使能，并且现在被用于构建更强大的东西。

算法和更好的预测我们之前拥有的广泛事物。

所以现在我认为我们已经到了一个很好的时机，可以真正将这些算法应用到。

我们之前提到的管理人员的问题。

而且想想机器学习可以用来改善方式的不同方法。

我们管理人。现在在这样做的时候，我认为我想强调一个关键点。

这是索尼描述的算法。这些是通用目的技术。

我指的是它们是一套我们可以应用于任何问题的技巧，你知道的。

无论是模式识别的问题，还是训练计算机识别每一只猫。

互联网正在解决一些生产问题。你说吧。好的。

所以当我们谈论如何将其应用于管理员工时，所不同的是。

将有几个事情。所以一个是弄清楚我们将使用什么样的数据。

所以索尼所描述的这些算法真正擅长的就是处理一堆。

输入数据和输出，以及弄清楚这些输入数据中的哪个。

所以我将举例谈论营养预测。

我们可以利用哪些信号来预测谁会领导，这些信号与人们的行为有关。

因此，关键的一点是弄清楚哪种数据效果最好。

预测谁将离职的工作。因此，我们常常考虑的是我们可以使用哪些数据来进行这些预测。

预测，数据越聪明，结果就越好。

我们在应用这些时，另一个我们真正想要考虑的事情是我们该如何去做。

实际上使用这些算法。算法只是给你提供预测。

对自己的预测没有用。那么这些行动邻居究竟在做什么呢？

由此产生的行动是什么？所以我将讨论这些算法如何应用于管理的三个不同领域。

人们。因此，首先要关注员工的参与度，追踪我们员工的动机有多高，他们的满意度如何。

在这里。一个 attrition，弄清楚谁会留下，谁会离开，以及我们可以做些什么。

怎么处理它。

第三，在组织内部建立职业发展路径。

这并不是机器学习使用的所有方式的详尽列表。

管理人员。我认为建立这样一个详尽的列表会很困难。

我特别想说的是，机器学习正在显著影响的一个巨大领域。

used is hiring。我将忽略这一点，因为彼得会花很多时间谈论。

那个。我将讨论这三个主题：参与度、流失率和职业发展路径。

我们将从互动开始。谢谢。 [沉默]。

P74：11_AI与员工参与度.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

公司非常关注员工的参与度，因为他们认为参与度更高的员工更有可能。

更有动力，努力工作，表现更好，他们更有可能站稳。

所以这一直是公司非常关注管理的一个方面，因此。

尝试去测量。因此，我指出了组织过去实现这一目标的关键方式。

使用年度调查。还有其他方法可以做到这一点吗？是的。

这是人们开始探索使用机器学习的领域之一。

这个是如何工作的呢？好吧，为了理解这些算法是如何运作的。

我实际上认为，思考我们可能如何做到这一点是相当有用的。

假设你是一名经理，你想要评估每位下属的参与度。

不用进行调查。基本上只需在心情好的时候或心情不好的时候弄清楚谁是兴奋的。

你会怎么做？你要做的第一件事，也是最明显的，就是在他们说话时倾听。

在说话。他们是否抱怨很多？他们是否在说工作很有趣，而且对此感到满意？

还是说他们有点更内向，因为他们谈论的大部分内容是关于这个。

他们工作的缺点是什么？仅仅通过追踪这些，这可能是你尝试了解的第一种方式。

人们参与其中。结果发现，这些事情是机器学习非常擅长的。

所以我想讨论的关于跟踪参与度的内容是使用机器学习。

以系统的方式，研究员工所说的内容，讨论两种方法。

第一个是情感分析，第二个是主题建模。

那么让我们从情感分析开始。情感分析的基本原理是处理文本。

任何文本并尝试分析该文本的情感内容。

是在讨论人们快乐的文字吗？是讨论人们多愁善感的文字吗？

所以再次强调，在考虑计算机之前，假设你需要训练一个朋友去做这个。

假设你收集了一大堆员工对他们工作的描述。

讨论他们对此的感受。你希望你的朋友告诉你有多少人对他们的工作感到满意，以及原因。

许多的脱离。现在，假设你的朋友完全没有情商。

对吧？也许他们是学术型的，对吧？所以在没有明确的指导下，他们会觉得很难做到这一点。

你怎么能让一个真的没有这种情商的人去弄明白呢？

好吧，你最终可能会告诉他们只需要这样做。好的。

让我们看看它们描述情感的所有词汇。

一些词汇将与积极情绪有关。

他们将讨论快乐或兴奋的感觉。其他词汇将是负面的。

他们将谈论感到沮丧或失望。

所以我们可以直接统计这些词语的数量，然后比较它们的频率。

在那里，人们使用了更多快乐的词汇。你知道，他们使用了像“请”这样的词。

兴奋，投入。“如果他们是美国人，可能会形容自己为非常激动。”

如果他们使用那些词语，那么我们可以肯定他们感到参与其中。

这就是情感分析的基础。所以它的工作原理是从一个预定义的词汇表开始。

因此，它有一长串我们与积极情绪相关联的所有词汇和。

另一长串与负面情绪相关联的所有词汇。

因此，任何一段文本，任何你想以这种方式编码的答案。

它只会经过，统计单词数量，积极情绪。

负面情绪词汇的数量以及它们之间的差异。现在。

你可能在想，这样做确实存在一些明显的问题。

如果有人说他们不快乐，应该如何处理这个问题？

所以通常这些算法足够复杂，你知道，比如说如果有。

不是在它之前，我们要么忽略这个词，要么反转它的意义。显然，这并不完美。

你可以想象可能会有一些扭曲的例子。你知道，如果我说我兴奋得不够。

你知道吗，这是不是一个负面的东西呢？很难判断。所以是的。

这里可能会有一些错误。我们也可以想象，人们的表达方式是有差异的。

你知道吗，如果你是英国人，说“工作很好”，其实你是非常兴奋的。

如果你是美国人，并且你说“这个工作很好”，基本上意味着“还不错”。没关系。而且有点随意。

你知道，不仅能看到这些国家之间的差异，而且显然，人与人之间也有。

有些人是不同的。有些人总是充满活力并且说，你知道。

能够对那些人进行控制是困难的。因此，这也会导致不准确性。

然后第三件事，结合调查，我们可以想象人们可能会采取战略性的方法。

尤其是如果他们知道我们将会分析他们所说的话以进行推理。

他们的参与度有多高。问题可能不是我有多投入，而是我希望人们认为他们有多投入。

我是？我说，这绝对存在问题。我是说，当你看待它时。

人们基本上已经尝试验证这些类型的分析。

使用这些算法对文本的情感进行编码，然后让人类评估者进行评判。

相同类型的编码。实际上，当你这样做时，你确实会看到计算机之间相当不错的相关性。

说的内容以及人们所说的。你知道，我的感觉是，最终，你知道，任何一部分。

特别是一段相对较短的文本，其中可能会有各种各样的错误。

但是当你查看大量文本时，当你查看你知道的已经写下的内容。

在人们之间，通常通过这些方法获得的准确性真的相当不错。

这显而易见的优势是，嗯，我不需要阅读所有内容并进行整理。

自己对他们所做事情的判断。我可以直接从计算机的分析中获取这些数据。

情感分析只是一种工具。它是一种对文本进行情感编码的方法。

我们想问自己的显而易见的问题是，我们是否计划用这个来理解。

我们的员工有多投入，我们将使用什么文本？

这可能是他们写的任何东西，但我们该去哪里找呢？

在考虑在哪里使用情感分析时，我认为这是一种权衡。

在雇主方面，权衡全面性和侵入感之间。所以，是的。

如果我真的想知道人们是否兴奋，可能最好的办法。

我能查看的是他们的电子邮件和即时消息，对吧？我的意思是。

近年来，在组织内部，我们的交流量巨大。

以电子方式进行并进行调解，对吧？所以所有的数据都在这里。

我们可以轻松地对人们所写的所有内容进行情感分析，以便理解。

你知道的，他们感觉有多兴奋？这在日常生活中是如何变化的？

哪些群体表现出更多的参与？哪些群体表现出较少的参与？

你确实可以看到一些工具，例如，用于查看Slack消息的工具。

深入研究这些分析。我们应该这样做吗？接下来。我是说，当然，我认为。

从法律角度来看，在美国，我们是没问题的。我认为对电子邮件没有隐私的期望。

人们在工作中处理的其他事务，正是在工作技术上。所以我们应该没问题。伦理上来说。

我认为在某些组织中，他们不会对此感到困扰。在其他组织中。

人们可能会将其视为对隐私的重大侵犯。确实，我认为如此。

一旦你开始深入了解人们在这个层面上所写的内容。

确保人们理解你对他们数据的处理方式。

并确保人们对此感到舒适，我认为保持他们的信任是很重要的。

所以你可以这样做，无论你是否应该，可能是特定于组织的。

我们还可以用它来做其他事情。因此，你也可以用它来思考人们在社交媒体上发布的关于公司的内容。

媒体。现在，我认为这更公平，对吧？我的意思是，如果它在社交媒体上，从定义上来说。

这是公开的。因此，查看人们对公司的帖子可以给你一个不错的感觉。

整体士气。显然，你获得的信息变少了。

我们没有能够跨不同邮箱查看的那种细粒度。

在群体和时间的交叉中。我们只是数据较少。但这是一件值得关注的事情。

另一个人们常用这个的地方实际上就是询问别人你感觉怎么样。

关于你的工作。因此，与其进行这种长期的参与调查。

我们可以每隔几周，甚至每个月问问人们，但你知道，有些作家。

关于你对工作和公司的感受，写几句话。

好的，这段开放文本对他们来说更简单。它为我们提供了更丰富的信息。

我们可以做的第一件事就是对所有内容进行快速编码。所以，你知道。

我们在这里看到的整体满意度如何？这段文字有一个不错的地方。

它不仅适用于情感分析，但询问人们他们的感受。

这也给了我们更多的杠杆作用去尝试弄清楚，他们为什么会有这样的感觉。我会说。

这其中有哪些主题？缺点是现在我们可能会有成千上万的这些句子。

我们试图从中提取那些主题。因此，这是我想讨论的第二个工具的一个伟大任务。

这就是主题建模。 [BLANK_AUDIO]。

P75：12_主题建模.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

主题建模是从文本数据中提取意义的第二种技术。

情感分析仅仅给你一种价值，积极与消极。

主题建模是试图弄清楚正在讨论的不同主题。

在大量文本中，能够对每个不同的文本片段进行编码。

告诉你哪个主题存在。我们该如何做到这一点？

我认为再次理解时，考虑你是否在和朋友交谈是很有帮助的。

谁是情商为零的学者，我们正在试图向他们解释，这要怎么做？

你如何浏览这些文本并提取出关键主题？你可能会怎么做？实际上。

这里有一个不错的例子，在我的一节课上，我让我的学生写一个非常。

他们最后工作过的组织文化的简要描述。

所以我这里有几个。想象一下我们的任务是弄清楚一些主要的维度是什么。

人们如何描述组织文化？

描述文化时常出现的事情有哪些？我们会怎么做？嗯。

我们可以通读这些内容。通读之后，我们可以开始观察是否有一些共同的主题浮现出来？

我认为有一些。所以例如，有几个明确谈论“努力工作，尽情玩乐”。

所以这似乎是一个维度。另一个经常提到的事情是某种同事之间的关系。

所以人们谈论团队合作、协作等这种团队基础的东西。

你知道，也许是影响。这将是另一个，有人谈论重大的社会挑战和影响导向。

所以你开始看到一些主题浮现。

所以我们做的就是开始列出这些主题。现在，我们的朋友在想，好吧。

但我看到的只有几个。我得过一遍大约500到1000个这些。

我得弄清楚，你知道，他们当中有多少人在谈论协作性。

有多少人在谈论“努力工作，尽情玩乐”？我该怎么做呢？我们可以这样告诉他们，嗯。

让我们逐一探讨这些主题。对于每一个主题。

我们可以做的是建立一个小字典。好的。

我们可以识别与之相关的词汇。因此，关于“努力工作，尽情玩乐”，你知道的。

工作将会占据很多时间，但当然也要玩乐和努力。

如果主题描述了游戏，并且描述了努力，同时也包含了“工作”这个词。

这可能与努力工作，尽情玩乐有关。对于合作来说。

我们将使用诸如协作、合作、团队、同事关系等词汇。

所有这些事情。好的，所以对于每个主题。

我们可以创建一组与之相关的词。

所以这就是主题建模的基本内容。它的作用就是这样。

它假设当我们拥有大量不同的文档和对文化的众多描述时。

或者他们的工作或其他事情，所描述的人，每一个文件将包含有限的主题。

所以它们之间有几个共同主题。

所以描述文化的一个人会谈论工作和生活。

平衡和影响，其他人可能会提到这是一个合作和辛勤工作的过程。

每个文档只有几个主题，主题数量较少。

这些主题各自都与一些词汇相关。所以，如果是同事间的讨论。

这些词包括团队、协作、同事关系等等。好的。

现在我们实际上看不到这些主题，对吧？如果你考虑一下计算机所看到的内容。

它看到了所有的文本。所以它看到了，你知道，这里是每个文档。

每个文档都有一组相关的词汇。

但它接着尝试弄清楚主题和文档之间的一系列关联。

在单词和主题之间，最有可能导致这种单词在主题间的分布。

好的，因此它利用文档中的所有词汇来尝试找出哪些词在主题中是相互关联的。

每个文本中涉及哪些主题。好的，这就是它所做的一切。

它确实有一些重要的局限性，所以我说，我们必须。

计算机并不识别主题，它会自行推断。实际上。

它可以针对无限数量的主题执行此操作。因此，计算机未能很好地告诉我们的是有多少个主题存在。

所以我们通常需要做的一件事就是告诉它，可以。

假设有15种描述文化的方法。如果有15种描述文化的方法。

每个不同主题会关联哪些词语呢？

哪份文档会包含这些不同主题，这是一个限制。

我们必须告诉它要寻找多少个主题。第二个限制是。

其实并没有告诉我们那些主题是关于什么，对吧？

所以这告诉我们，这些文档中出现了一个主题，并且与之相关联的有这些词汇。

所以我们最终要做的就是查看与主题相关的所有词汇，然后说，好吧。

这些都是词汇，这一定是主题的内容。

所以在实践中做这件事有点麻烦。但是我得说，我试过几次。

有时它运作良好，尤其是在大型文档中。

因此，这是一种从大量文本中提取关键主题的方法，然后能够对这些不同的文档进行编码。

并且说，好吧，这并不是，你知道，如果我们想提取所有关于工作与生活平衡的答案。

这将是这些。它可以非常令人印象深刻。

这是一个很好的例子，来源于斯坦福和伯克利的一项研究。

当他们试图跨组织测量文化时。

我不知道有多少人听说过网站Glassdoor。所以，Glassdoor是什么。

这是一个网站，你可以在这里基本上写关于你公司文化的内容。

在那里工作是什么感觉。因此，这个想法主要是为求职者服务。

这样你就可以了解每个不同的组织。

因为为了了解其他组织，它鼓励你描述你的雇主。

这真的很酷，因为这意味着我们突然有了数以百万计的人写关于他们雇主的文章。

因此我们可以开始看到他们写了什么。于是，在这项研究中。

他们所做的基本上就是提取出每一个包含“文化”一词的句子，以便尝试理解。

再次，当人们谈论文化时，他们究竟在谈论什么？我认为，他们。

使用了大约一百个主题。他们说文化可能有大约一百种不同的维度。

我这里有一些他们提出的主题及其相关词汇的例子。

我们可以看到其中一些效果非常好。所以举个例子。

如果你有一个关于敌对管理的话题，那与之相关的词汇有哪些呢？好吧。

显然，管理层和员工之间的关系，似乎经常存在一些敌对的情绪。

不专业，恶劣，偏袒，欺凌，糟糕，可怕，粗鲁，不尊重。

这似乎在强调一个非常明确的主题。如果你关注工作与生活的平衡。

工作与生活的平衡，良好，健康，灵活，个人，还有一些其他的似乎有点奇怪。

不过，你可以看到，这种情况贯穿始终，它是在挑选类似的词汇。

所以你能够从不同的文本中提取出一系列这些主题。

因此，这就是我们如何在实践中使用主题建模。

所以我们可以在脉搏调查和其他类型的简短问题中询问我们的员工。

只需告诉我们你喜欢和不喜欢的事情。

你希望我们知道什么？从他们那里获取相对简短的回答。

然后我们可能在一个组织中得到数千个这样的主题。通过运行主题建模。

我们可以非常快速地识别出那成千上万的主题是什么？

这些主题有多常见？通过观察一段时间来看。

我们可以探讨一下主题是如何变化的？

哪些主题变得越来越常见，哪些主题变得越来越不常见？

我们在每个部门中看到哪些主题更为常见？

因此，我们不仅可以讨论情感。

但即便如此，也能感受到人们所担忧的事情。

并且以可扩展的方式在一段时间内做到这一点，是的，我们可以支付某人去逐一阅读所有这些内容。

但我们可以做到更快，更有效。

因此，当涉及到我们如何跟踪参与度时，机器学习开辟了一些非常有趣的可能性。

尤其是在寻找不同方式来感知人们的感受时。

所以通过情感分析，我们可以很好地处理人们撰写的任何形式的文本。

并快速检查整体积极性水平。通过主题建模。

当人们填写调查问卷或做其他事情时，我们可以远远超越这一点。

为我们提供开放文本，并给我们一个很好的方式来分析这些文本，并快速提取出关键主题。

最常见的内容，并观察这些内容是如何变化的。

我认为这些应用仍然处于早期阶段，已经有很多公司开始采用它们。

尤其是在进行主题建模以分析文本等方面。未来也会如此。

我认为在跟踪参与度时，可以成为一个非常有价值的工具。

我会说这是对一些更为繁琐的年度调查的一个很好的赞美，这些调查我们依然会看到。

[沉默]。

P76：13_AI与流失.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

我想谈论的第二个领域是流失。

我在之前的一个视频中提到过，组织支付了大量费用。

关注流失率，试图弄清楚人们为何离开以及他们能做些什么。

他们需要采取措施，因为人员流失对他们来说代价太高。可能正是因为这个原因。

人员流失与招聘是我认为存在问题的领域。

已经是最先进的领域，组织也已经在使用机器学习工具。

大多数人改变了他们管理人员的方式。如果你考虑这些机器学习工具的作用。

再次强调，这并不复杂，对吧？如果我们让我们的朋友来判断谁会离开。

他们会做一些非常像机器学习模型的事情，对吗？

我们正在试图弄清楚谁会离开，并说：“好吧，我们应该查看哪些信息？”

“有很多显而易见的事情。因此，我们会考虑每个人的情况。”

他们的个人情况是什么？他们的职业生涯处于什么阶段？所以，例如。

我们知道年轻人倾向于更频繁地换工作，部分原因是。

他们仍在努力弄清楚自己适合什么位置。

他们也可能更倾向于离开去上学，所以如果他们年轻，可能会这样。

他们的逃跑风险更大。我们还会查看他们的简历。

有人经常换公司。如果他们过去也这样做过。

他们更有可能再次这样做吗？所以，是的。

我们可能会将其中一些包含在我们的估算中。我们可能会考虑他们所在的工作。因此。

某些角色往往有更高的流失率。可能是因为它们很无聊。

这可能是因为这些工作所需技能需求旺盛，且更容易。

在其他地方寻找那些工作。但这两者之间会告诉我们一些关于他们机会的事情。

我已经谈到了参与度。毫无疑问，我们会关注他们是否参与或 disengaged 的任何信号。

我们可能会看看他们在工作上是否顺利，以及他们有多么内向？所以。

如果我们要坐下来观察任何个体，我认为他们。

明年要离开吗？这些是我们可能要考虑的一些事情。

当我们使用机器学习时，这基本上就是我们所做的。只有。

我们正在以系统化的方式结合所有这些特征，利用过去的数据和一切。

关于人们的那些特征，以及过去的数据，哪些人留下来了，哪些人则离开了。

人们仍需理解这些特征如何影响预测模型。

当我们这样做时，相较于让主管猜测谁更有可能，我们获得了两个优势。

离开。第一点是模型将会更加准确。

对于这些估算，我们做得还不错。我们往往不太擅长有效地等待多种不同的标准。

这些机器学习模型的表现远超我们的能力。

另一个优势是你可以让你的经理坐下来，看看谁可能会离开。

也许我们每六个月做一次，但管理者会分心，他们会转向其他事情。

机器学习的一个好处是，它不会分心。

我们可以建立一个模型，不断地在数据中抓取并不断地标记。

看起来这个人可能有逃跑的风险。我们在做这件事时，会考虑这些概率。

然后我们可以对此采取一些措施，因为我会去。

稍微进入一下。 [BLANK_AUDIO]。

P77：14_构建流失机器学习模型.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

当我们观察这些机器学习模型时，很多聪明的东西其实并不是模型本身。

这是在弄清楚应该放入什么类型的数据。

我认为我们工作的方式，尤其是我们很多工作都在线进行的方式，正在发生变化。

因为现在有越来越多的数据可以用来帮助我们更好地估计谁将离开。

那么，有哪些重要因素呢？我们将尝试构建一个机器学习模型来预测谁会留下，谁会离开。

我们可能放入其中的一些信息是什么呢？显然，正如我所提到的。

有关人口统计的信息，包括人们所处的职位类型。

这对于理解谁可能离开、谁可能留下非常有用。

我认为另一个非常有用的东西是事务级数据。

他们尝试在特定事件上，这些事件发生在影响人们离开的概率上。

这种关于事件的交易数据之所以有用，是因为营业额实际上与变化有关。

所以如果你考虑为什么人们离开组织，从某种意义上说，答案是显而易见的。

我们通常选择离开，因为我们认为当前的工作比其他选择更糟糕。

男爵让我不得不搞清楚这份工作有多糟糕。

不过有趣的是，我们离开是因为这份工作比其他选择更糟。

但我们也接受了那份工作。所以我们之前接受那份工作的事实。

那时它一定比其他选择更好。因此我们想问自己，发生了什么变化？

有什么变化使得某个人现在觉得他们的工作比其他选择更糟糕呢？

但之前他们认为这样更好。并且我们可以利用大量人力资源数据来了解人们是如何被管理的，从而为我们提供洞察。

那么，什么可能发生了变化呢？可能导致人们更容易离开的一个因素是接收到一个信号。

他们发现自己在组织中的价值并没有他们想象中那么高。

因此，他们未来的前景并不是那么强劲。

那么，这些信号可能是什么样子的呢？它们可能在绩效评估中发生变化。

所以可能是我的表现，估值还不错。现在我的估值正在下降。

评估下降。人们意识到他们并不合适。他们更有可能离开。

如果我没有得到加薪，没有奖金，或者我的奖金和加薪都没有。

这对我来说又是一个相当糟糕的迹象。我在这个组织的表现比我预期的要差。

所以我可能应该考虑离开。因此，不获得加薪通常是人们被期望离开的一个警示信号。

另一个重要的事情是正在进行晋升。

人们外出寻求升职，但却未能如愿。他们更有可能选择离开。确实如此。

我们更广泛地发现，当人们申请组织内的其他职位时。

我常常认为，在很多组织中，你可以申请内部职位。

如果人们申请那些工作并被拒绝，他们更有可能离开。

这可能部分是明确的，因为这是一个拒绝。

有时这可能是因为他们正在申请组织内部的职位。

这是他们准备离开工作的好迹象，如果他们无法在组织内部转岗。

他们将搬到外面去。无论如何，如果我们能将这些信息融入我们的模型中。

无论他们是否申请其他工作，我们再次有更好的证据证明他们的跳槽风险。

另一个关于变更的信息可以预测员工流失。

是他们环境变化的原因。所以我们知道如果同事离开，人们更可能选择离开。

通常被描述为人员流动传染。与新同事一起工作的学习过程充满了各种挑战。

也许那些同事曾是朋友，如今上班的乐趣已不如从前。

也许当那些人离开时，这让他们有一种“嘿”的感觉。

在这个组织之外还有其他的可能性。“也许我应该在生活中做更多的事情。”

所以当我们看到他们的同事离开时，他们面临着很高的风险。毫无疑问，当他们的经理离开时。

特别是如果这是一个优秀的经理，他们的经理离开，这可能会造成很大的干扰。

可能导致人员流动。更一般地说，重组，其他事实的组织。

当员工面临多次重组时。

这也增加了他们离开的倾向。所以我们可以透过我们在HR系统中获取的所有数据进行深入分析。

看看所有这些变化，所有这些不同的标志。

开始为我们的流失模型获取输入，以帮助我们做出更好的预测。

关于人们可能离开的时间。我们可以使用第二组数据来理解。

人们是否会离开的行为数据。他们日常究竟在做什么？再说一次。

随着我们生活和工作在线的越来越多。

我们可以将更多的数据放入这些模型中。所以很多人。

一旦他们开始考虑离开，他们就会更普遍地开始退缩，对吗？

他们的表现下降，因此生产力也会突然下降。

这可能暗示他们有逃跑的风险。更甚者。

我们可以利用关于人们如何与他人互动的信息。

了解他们是否可能留下来。

所以我们一般期望在组织中有更多联系的人。

或者花更多时间与他人互动。好吧。

他们将获得更多来自其他人的支持，这使得我们成为一个有吸引力的地方。

我们往往享受我们的关系，因此我们在组织中越是社会嵌入，就越会感到愉悦。

我们越可能留下来。因此，我们通常会发现，在研究中，当我们观察与组织的互动时。

那些与更多人有联系的人，通常与他们的沟通更多。

更有可能留在这里。那些人有点处于组织网络的边缘。

那些人更可能会离开。我们甚至看到联系的质量也很重要。

所以举个例子，留下来的不仅仅是那些拥有更多人脉的人。

但也与那些接触更多且地位较高的人建立了联系。

所以有很多有趣的证据表明，追踪人们所参与的沟通网络。

可以为我们提供更多信息，这些信息可以用于这类流失模型中。

了解谁可能留下，谁可能离开。

理解互动在谁留下来的角色甚至可以更进一步。

斯坦福大学和伯克利的一组研究人员进行了一项不错的研究。

研究了人们在电子邮件中彼此发送的信息。

所以他们的理论是，我们的语言与他人电子邮件的语言之间的相似程度。

是我们在多大程度上努力相互适应的一个良好指标。

更广泛地努力适应文化。

所以当人们使用相似的语言时，这表明他们确实在努力融入。

当人们不使用类似的语言时，这可能表明他们正在退缩。

他们找到了证据。因此，当他们追踪人们在电子邮件中使用的语言与他们对应的对象之间的相似性时。

当这种相似性开始降低时，人们逐渐偏离其他人使用的语言。

这也是一个预测那些人离开的因素。所以这很有趣。

不仅仅是观察人们与谁交谈，这是可能的。

但即使是观察他们使用的语言类型，也可能成为模型的一个输入，从而尝试构建一个更精确的模型。

理解谁留下，谁离开。我还没有完成。

我们可以关注其他方面。一些最有趣的内容来自社交媒体。

所以有一些初创公司，比如High Q Labs和Clara Analytics，已经尝试建立业务多年。

围绕着人们的社交媒体档案可以告诉你很多关于他们将要离开的地方，并为这些离职风险模型提供信息。

我实际上认为这些想法背后有很好的逻辑。

我之前提到的所有事情。

真正不同的指标显示了人们在工作中对组织的依附程度。

我们必须将这些视为推力因素，究竟有多少，你知道吗。

他们正被组织驱逐。我们也知道，当涉及到人员流动时。

吸引因素同样重要。所以你知道，我在其他地方找到好工作的可能性有多大？

你知道，那些工作无论我是否离开都很重要。你知道。

我们也知道，大多数人倾向于通过他们的社交网络找工作。

我们通过认识的人找到工作，而在线网络使这些搜索变得可见。

因此，通过观察人们的社交媒体活动。

我们可以真正追踪的一件事是，他们实际上有多少人在寻找新工作，以及他们是否在寻找新工作。

显然，他们更有可能离开。以一种非常粗略的方式，我们可以这样考虑。

如果人们在LinkedIn上更新他们的个人资料并试图与很多人建立联系。

这是一个很好的求职活动指标。

这确实表明，在我们的模型中，这个人的潜逃风险应该更高。

[空白音频]。

P78：15_流失模型的价值.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

所以我们可以利用大量有趣的数据来构建这些流失模型。

可能花几分钟时间聊聊，这也是值得的。

你构建了一个复杂的流失模型。你会怎么处理它？这值得付出努力吗？是的，我是这么认为的。

我认为许多组织都做过这一点，他们将其视为机器学习在人员管理领域中最有价值的应用之一。

为什么？这让他们能够做三件事。

首先是对影响员工流失的因素提供更多的洞察。

当我们更了解那些真正预测离职的因素与那些不预测的因素时。

我们可以开始了解我们能做的一些事情。所以，例如。

我认为一些采用这些方法的组织发现，这确实让他们开始关注员工在入职初期的体验。

有一个组织进行了一些分析，发现经理在新下属的第一周是否安排了一对一会议，是预测该员工是否会留下的一个相当强的指标。

显然，那些没有安排一对一会议的经理，导致员工最终离职。

来自另一个组织的第二个类似见解。

他们发现，当某人的新团队派人来接他们参加新员工培训时。

当新雇员被期望自行找到团队时，聘用他们的留任可能性更低。

这到底有多少是关于那些活动的，多少是对团队欢迎程度的一种更广泛的信号。

无论如何，强烈建议组织认真考虑他们如何引导新员工。

他们在早期阶段所做的事情，对员工流失是很重要的。

请问您希望我在翻译中关注哪些具体方面？

如果我们更多地了解谁是潜逃风险者，那么我们就能更清楚地知道我们真正需要关注谁，以确保他们留在这里。

这里的想法是我们的模型告诉我们人们是否有离开的风险。

其实很多人已经下定决心要去。

所以我们可能能够说服他们留下来。特别是如果我们标记了某个人。

我们看到的这个人有着高于平均水平的流失概率。

如果有一个经理，我们会关注这一点，然后说，“我不想失去这个人。”

失去这个人将会很昂贵。“这是采取行动的好时机。”

很多组织讨论进行留职访谈。

我之前提到的想法是，当人们常常离开时。

我们进行离职面谈，以了解他们离开的原因。

留任面谈的想法是，我们提前进行，以了解让那个人留任需要什么。

理解他们的需求，理解他们对组织的感受。

我们可以做些什么来让它对他们更有吸引力，通常是有效的。比如，IBM。

使用了一种营养模型，并结合了真正接触管理者的程序。

让他们主动与人合作以留住人才。

他们声称通过这样做节省了超过3亿美元。

基于飞行风险模型的这些主动干预措施可能是有效的。

你可以做的第三件事显然是为替换进行规划。

我们无法阻止所有的流失。老实说，目前还不清楚我们是否想要阻止所有的流失。

大多数人员流失对组织是不利的，但有些人会对某些离开的人表示。

“是的，这不一定令人遗憾。我对那个人离开并没有意见。”

我可能可以接受他们离开，但这仍然会造成干扰。

如果我们能更多地了解人们何时可能离开，我们就可以开始提前规划。因此。

当我们开始思考如何在内部管理成功，甚至规划将要雇佣多少人的问题时。

能够理解不同人离开的可能性是什么。

我们预计离开的人员数量也可以帮助我们制定 staffing 计划。

帮助我们弄清楚需要引入多少人，并减少在人员流失时可能出现的一些空缺。

很多组织正在研究员工流失的机器学习模型。

这也是他们发现通过这样做可以直接创造价值的领域。

[沉默]。

P79：16_AI与职业生涯.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

我想谈论的机器学习的第三个应用是在内部管理。

职业。这是我特别感兴趣的领域，我认为这也是一个日益受到关注的话题。

在公司中，重要性越来越凸显，而这是一个机器学习展现出真正价值的领域。

仅仅提到Moncris的复杂性。让我给你一些背景信息。

为什么组织关心员工职业生涯的管理？

主要原因是公司关心员工流失，而人们常常离开公司以寻求更好的发展。

他们的职业生涯。这个想法是，如果我们能让人们在组织内更容易地晋升他们的职业。

他们更不容易离开我们。我认为这促使了人们对内部职业发展的许多新兴趣。

为了提供一点背景，我认为提供一点小小的商业信息是有用的。

历史。我知道商业历史并不是你在人工智能课程中所期待的内容。

人力资源，但请你宽容我一分钟。这个想法是，传统上。

组织有非常明确的职业阶梯。你知道会发生什么。

你以某种水平进入，然后你可以在这些不同的层次上不断进步。

职业随着你的职业发展而变化。在某种意义上，这是一种预期的契约。

你从那里工作中获得的就是这些。在过去的20到30年间，确实有几件事情发生了变化。

其中之一是组织结构发生了变化。我们从这些层级官僚制转变为这些更扁平的结构。

更加灵活的基于网络和项目的组织。这在很多方面都非常好。

这使得组织更加灵活和创新，更加协作。

我们减少了那种繁琐的官僚主义负担。所有这些事情，我们都喜欢。

这也使得职业发展变得更加困难，因为不再有这种等级结构来适应气候。

我们有这些独立的组织，了解我如何从一个地方移动到另一个地方。

到另一个机会更多的地方。这要难得多。

我们在这样做的过程中摧毁了职业阶梯。另一个发生的事情是，组织在某个时候开始减少关注。

关心员工的职业发展。他们明确表示，就公司的关注而言。

你的职业发展，对我们来说，听起来像是你的问题。

我们并不特别感兴趣于帮助你。

你需要弄清楚自己的职业发展。这是你的责任。

组织走上了这条道路。随着时间推移，这种策略的局限性变得相当明显。

这意味着如果你告诉你的员工，他们的职业发展是你的问题，校长。

他们会想出一个对我来说的解决方案，这不一定与停留有很大关系。

在你的组织中。这一点逐渐被认识到。

当有人离开去另一家组织工作时，这对我们来说是一个损失。

我们用自己的员工有效地填补角色要容易得多。我们希望他们留下来。

帮助他们留下来是为了帮助他们理解，他们可以在内部建立职业生涯。

我们正在帮助他们理解他们在这里可以获得什么样的工作以及他们如何做到这一点。

实际上进入这些职位。我们开始看到越来越多的组织努力建立更清晰的职业发展。

内部的职业路径，并确保在招聘时优先考虑这些内部职业路径。

结果表明，这其实可能相当复杂。

这就是为什么机器学习为组织在重建某些方面提供了机会。

这些职业路径。我们如何利用机器学习帮助员工在内部建立职业路径？

最简单的方法确实是帮助他们理解自己的职业发展路径。

我之前提到过组织是如何破坏这些职业阶梯的。

我们不再有这种非常结构化的进步。那意味着。

作为组织中的一员，如果我想在组织内部发展我的职业。

对我来说，弄清楚我应该转向的下一个工作需要更多的努力。

如果我们想要增强内部流动性，因为这对我们来说非常重要，且更可靠。

填补职位比招聘便宜得多。如果我想增强内部流动性。

首先，我想让人们更容易在内部找到工作。

这可能部分是帮助人们了解他们可以获得哪些职位，同时也在使其。

招聘人员更容易找到现有员工，他们会是不错的候选人。

这些角色。更广泛地说，帮助人们理解那些稍微长期的职业道路是有益的。

因为它帮助他们指引下一份工作的搜索方向。

当我想到这些是我可以转型的不同角色时，我知道该去找谁。

开始讨论从哪里着手建立我的网络，以找出我的下一个机会。

更广泛地说，这对我来说是一个信号，表明我可以在公司内部发展我的职业。

我开始理解有哪些可能性，并看到所有这些事物为我打开。

更技术性地说，我也可以开始指导我的发展。

如果我知道这些是显而易见的下一个角色，那么这些就是他们需要的技能。

这帮助我思考我可能想参与什么样的培训，以及什么样的项目经验。

我想为那些角色做好准备。

我们希望找到方法帮助人们理解他们可以转向的下一个职业。

人们常常借助机器学习来帮助构建这些地图，在一个充满不确定性的世界中。

传统职业路径不再存在。早期尝试这样做的组织之一是IBM Watson的职业教练。

你可能听说过IBM Watson。这是IBM的开创性人工智能产品。

基于此，他们建立了一个工具，员工可以通过它来解释他们的偏好。

为了他们的职业生涯，然后沃森会采纳他们的偏好，并将其结合起来。

对于在一个组织内部可能的职业路径有一种认知。

给他们提供关于下一步应该思考什么的指导。

这个目标是提高信息的保留率和参与度。这样的工具是如何运作的？

它们实际上如何帮助为人们提供可选择的职业道路建议。

在组织内部跟随？有几种常见的方法。

最简单的方法基本上就是分析那些在他们之前的人职业路径。

例如，如果你是一名市场分析师，正在思考接下来想做什么。

让我们深入分析数据，看看之前的市场分析师们有哪些其他角色。

他们继续前进，以便能够继续。这些是常见的选择。

这就是你可能会考虑做的事情。有些组织可能会反向操作。他们可能会说。

"相反，非常好。你想成为一名控制者。让我们看看人们从哪些职位转向控制者，以便你可以开始。"

考虑一下你可能想要担任的下一个角色，以便为自己定位。

两种信息，对于人们思考潜力时可能非常有帮助。

接下来的步骤。有几个挑战需要面对。首先，

这个方法适用于非常常见的角色。我们有很多市场分析师。

我们有很多控制器。可以很容易看到进出多个路径。对于相对少见的角色。

我们可能对人们以前做过的事情没有太多数据。

关于进入这些角色或离开它们的方面。其他挑战。

这都是关于过去发生的事情。工作正在迅速变化。能够告诉你。

“好吧，以前人们是沿着这些路线行走的。”，好吧。

也许这就是五年前市场分析师所做的，但今天，情况完全不同。

可能市场分析师将要从事的一系列工作，在我们当时甚至还不存在。

将这些数据整合在一起。在快速变化的环境中。

仅仅依赖于之前的角色可能效果并不好。另一种更为稳健的方法。

但更棘手的是，根据技能绘制职业路径。

这里的观点是，我能否找到一份工作真的取决于我具备的技能。

我拥有合适技能的工作，我可以转向那些愿意雇用我的人。

他们认为我能做好这份工作。工作是我没有技能的地方。

这对我来说并不是一个真正的选择。如果我们可以考虑我的技能和工作对技能的需求。

这是一种不同的方式，帮助我识别在下一步行动中所有不同的可能性。

这里有一些不错的想法，也许我是一名市场分析师，而我之前并没有真正意识到。

我曾想过也许可以作为数据科学家转入人力资源，但实际上所需的技能。

所有必要的技能都是相同的。当我们看待技能时。

我们不需要经历过去发生的这种大量过渡。

这确实有助于识别人们尚未走过的新职业道路。

在新工作中进进出出。这是一个不错的方法，但它也有自己的问题。

在组织中，使用技能数据来识别职业路径的特定障碍。

是因为我们往往对技能的数据掌握得不够好。为了做到这一点。

我们需要了解不同工作的技能要求。

我们需要了解人们实际上具备哪些技能。

这就是这种以及坦率地说，许多工作规划应用程序所需的核心数据。

组织也希望参与其中。但我们在哪里找到这些数据呢？

我们到底在哪里能了解到人们具备什么技能呢？目前在大多数组织中。

那些信息几乎缺乏。

[空白音频]。

P8：7_人工智能简介.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

在本模块中，我们将讨论人工智能。

我们将开始对AI进行简要概述。接着深入到AI的一个子领域，即机器学习。

我们将从对机器学习的高层次概述开始，然后我们将。

深入一些具体的机器学习方法。这样。

让我们先谈谈什么是人工智能。

人工智能或AI是一个指代的术语。

开发能够执行通常需要人类智能的任务的计算机系统。

人类智能，例如理解语言、推理、语音识别、决策。

或者导航视觉世界、操控物理物体等等。

当我们谈论人工智能时，有许多种类的AI。例如。

可以考虑弱AI和强AI。弱AI，也称为人工狭窄智能。

是擅长非常特定任务的AI。例如。

你可能有一个下棋的AI，它可能会击败世界顶尖的棋士。

但它只擅长那一项任务。相同的AI可能无法与我们对话。

它可能无法识别图像等等。同样。

你可能会有一个擅长产品推荐的AI，但它并不擅长。

在国际象棋或图像识别方面。简而言之，这些是擅长单一狭窄任务的AI。

我们周围的大多数AI倾向于是弱AI，但该领域的目标最终是。

建立所谓的强AI或人工通用智能。

这是一个计算机程序，可以完成所有人类能做的智能工作。

因此，这种AI将真正具备智能，并且在许多方面接近人类。

任务范围。最后，你会有人工超智能的概念。

这是一个强AI系统。它在很多任务上和人类一样出色。

但它能够利用其计算资源存储更多数据。

更快地分析数据并做出决策，因此。

因此，可能在许多任务上击败人类。这就是超智能或在大多数任务上优于人类的AI的概念。

AI的历史非常短暂。这个领域的起源归功于数学家艾伦·图灵所写的一篇论文。

提出“机器能否思考？”这个问题的正是他，他认为可以构建模拟人类思维的机器。

非常接近。实际上，他提出了一个测试，被称为模仿游戏或更广为人知的名字。

作为图灵测试，用于机器智能。在测试中。

一名人类评审与两个计算机终端进行互动。

一个计算机终端由计算机控制，另一个终端由。

由人类进行交互。法官通过计算机终端与每一个参与者进行对话。

如果法官无法区分人类和计算机系统，那么。

这个计算机系统被认为通过了图灵测试。

现在，当阿兰·图灵提出图灵测试并提出问题，机器能思考吗？

这在该领域引发了很大的兴趣，并促成了其中一个首次研讨会的举办。

这是一个由数学家组织的关于人工智能的夏季研讨会。

John McCarthy参加了这个研讨会，还有其他几位领域的杰出人物。在这次研讨会上。

科学家们为一个后来被称为的领域奠定了基础。

人工智能，实际上也创造了“人工智能”这个术语。

科学家Pedro Domengo认为，将这一领域称为人工智能使其变得非常雄心勃勃。

这也激励了许多人进入这一领域，并对其负责。

该领域取得了许多进展。

现在，人工智能早期的关注点往往集中在人工智能是否能够击败人类。

人类在游戏中的表现。

例如，在1997年，IBM创建了一台名为Deep Blue的下棋计算机，最终击败了。

当时世界第一的棋手Gary Kasparov，以三分之二对两分之三获胜。

这个系统没有机器学习能力，意味着它不能自我学习。

它能够在没有被编程的情况下自行运作。相对于人类玩家，它的优势来自于其强大的计算能力。

它的分析能力每秒超过200,000个动作，能够找出最佳可能的移动。

在2011年，IBM创建了IBM Watson，它击败了Ken Jennings和Brad Rutter这两位选手。

这是有史以来最好的危机边缘的玩家。IBM的Watson内置了机器学习，能够理解语言的含义。

理解所提问的问题，并能够从中检索信息。

一个大型信息数据库，然后回答所提出的问题。

最近，谷歌创建了一款名为AlphaGo的软件来下围棋。

围棋是一种策略游戏，类似于国际象棋，但比国际象棋复杂得多，这意味着。

单靠强大的计算能力是不足以击败人类的。

你需要的不仅仅是强大的计算能力，还需要学习的能力。

这是一种更好的智力标准。谷歌在创建AlphaGo时使用了一些最新的机器学习技术，AlphaGo。

在与人类对战中取得了巨大的成功，实际上击败了世界围棋冠军。

有许多方法可以构建人工智能。

建造人工智能的旧方法是一种被称为知识工程的方式，也被称为。

被称为专家系统。这是编程知识或捕获并转移知识的理念。

计算机系统。例如，如果我们想构建一个用于诊断疾病的软件，我们可能会采访医生。

并整理他们用来诊断疾病的规则。

例如，医生可能会告诉我们，如果一个人或患者发烧超过。

一周内如果他们有身体疼痛和寒战，他们可能会开始考虑抗生素治疗。

现在这是他们可能给我们的一个规则，我们可能会编程许多这样的规则来诊断。

疾病。同样，如果我们想开车，我们可能会采访成千上万的司机，问他们。

他们用来驾驶汽车的规则是什么，他们可能会给我们一些规则，比如什么时候。

当前面的车减速时，我们可能会踩刹车，自己减速。

如果我们前面的车开得很慢，我们可能会换车道，等等。

现在，最终我们可以利用这些技术创建相当智能的系统，并且。

事实上，我们发现随着时间的推移，专家系统表现得相当不错。

但随着时间的推移，我们也观察到专家系统往往无法打败人类。

在需要智力的复杂任务上。例如，一个用于诊断疾病的系统可以表现得相当不错，但它往往无法。

在诊断疾病方面打败医生也是如此。

这是由于一个被称为波兰悖论的限制。

波兰是一个数学家，他提出了隐性知识的概念。

我们有很多我们未意识到的知识。

例如，当你问一个人他们用什么规则驾驶车辆时，他们。

他们可能能想到一些规则，这些规则是。

有用，但同时它们并不足够，因为我们都有很多知识。

我们在驾驶时隐含应用的知识，但我们对某些知识并不自觉。

我们在驾驶时应用的这些原则。因此，要求人们提供他们所有知识的结果是。

信息量很大，但由于隐性知识，它并没有给我们所有的信息。

这就是为什么用于诊断疾病的专家系统往往无法超越现实世界的专家。

这就是为什么使用知识工程或通过专家创建的无人驾驶汽车。

系统的方法最终无法像人类一样驾驶。

这导致了一种被称为机器学习的替代方法的出现。

这就是不再显式地用专家的知识编程计算机的理念。

我们可以给他们从数据中学习的能力，希望他们能观察到。

专家的行动并在一段时间内模仿该行动。

而这就是我们将在下一次讲座中讨论的内容。[BLANK_AUDIO]

P80：17_技能分析.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

所以很多正在朝这个方向发展的组织，试图建立。

一些基于真正理解他们技能的想法的应用程序。

员工技能，现在正试图弄清楚我们可以做些什么来真正衡量技能。

员工和他们转岗的工作都是这些系统的输入。

总的来说，我们可以采取几种方法来衡量技能。

所以确定人们拥有什么技能的一种方法很简单，就是问他们，好吧。

你想让他们列出他们所拥有的所有技能，然后你也要。

想要要求他们在学习新东西时继续更新那个档案。

合理。这里的一个挑战是让人们实际上填写这些档案并保持更新。

使其保持最新。有几个方法是组织为实际维护这些档案所采取的。

这些技能档案。一个是确实在为人们报告他们的技能创造强烈的激励。

所以有一些组织开始关注外部世界，并说，你知道，什么是。

真的令人沮丧的是，LinkedIn对我们雇主技能的数据要好得多。

我们自己也这样做，通常会想到，但如果我们创建自己的LinkedIn呢？

也许如果我们能创建内部档案，特别是如果这些档案是有用的。

内部获得工作时，人们也会在此填入他们的技能数据。

根据我所听到的，这些努力并不总是取得良好的效果。

我认为这些内部LinkedIn项目常常面临鸡与蛋的问题。

鸡蛋问题，对吧，如果我知道招聘者会看这个档案，我就很高兴填写。

你会查看这些技能档案，招聘者也很高兴查看这些技能档案，如果。

每个人都填好了。但如果双方都不开始，那我们就永远无法真正推动进程。

因此，我认为这些尝试取得的成功是参差不齐的。一些组织在衡量技能时采取的第二种方法就是。

将识别他们技能作为正式绩效评估过程的一部分。

所以每年我会接受绩效评估，也许我得为自己设定目标。

明年。我必须报告我掌握的所有技能，以及我今年所学到的内容。

这些事情有效吗？再说一次，这里的一个挑战就是让员工认真对待这个过程。

有些可能会这样做。其他人可能只是变成一种走过场的检查。我的意思是。

我认为这是AI还有其他用途的一个地方，所以一些组织。

已经进行了实验。如果我们能建议他们可能拥有的技能。

也许这会帮助这个过程。他们可以勾选他们拥有的技能，忽略其他的。

你知道，我们怎么能做到这一点？我们可以基于他们参与过的项目来进行。

他们所在的工作，其他人在该工作中具备的技能是什么。

我们甚至可以开始查看他们多年来写的文档和资料。

并利用这些数据编码出他们可能使用的技能。

这里肯定有机器学习的应用，无论它是否准确。

是否足够可靠，或者我们是否需要人们至少确认其准确性。

这仍然是一个开放的问题。是的，我认为让人们报告他们的技能绝对是有价值的。

但这确实需要员工基础的深思熟虑的工作，嗯，没错。

有相当不错的合规性。

他们保持这些技能的最新状态。所以，如果我们无法让员工报告自己的技能。

还有什么我们可以做的呢？好吧，我们可以尝试理解人们具备的技能的另一种方法是查看。

他们所担任的工作。好吧，所以一个很好的简化策略基本上是说，嗯。

不仅技能决定人们现在能做什么工作。

而且技能还决定他们过去能做什么工作。

所以我应该能够假设，任何人从事的工作，他们要么具备所需的技能。

在工作中需要的技能。所以通过查看人们过去经历的一系列工作。

我对他们应该具备的技能有一个不错的了解。好吧，显然为了做到这一点。

我们需要知道每个工作的技能是什么。我们如何弄清楚这一点？你知道吗。

再次，有多种方法。因此一种是我们可以使用现有的数据库。

这里最常见的一个是，称为O-Starnet或O-net。这是一个政府数据库。

他们考察了大约900个职业，即我们在经济中看到的广泛工作。

对于每个职业，他们编制了一整套技能和能力的代码。

预期在这些职业中拥有的技能。明白了吗？所以，仅通过查看我们组织中的职业以及人们的职业。

在他们之间移动时，我们对他们应该具备的技能有一定的了解。

这里的好处是非常简单，所有的数据都在那里。你知道。

挑战在于，它假设每个职业内的工作拥有相同的技能。

他们并没有。所以，这显然在这方面存在很多测量误差。

但这仍然是很多组织的常见做法，首先获取。

根据人们的工作，我们可以了解我们组织中存在哪种技能。

所以，更准确地理解每个工作的技能要求，实际上是去。

每个组织内工作的描述。

所以有些组织可能会进行一些正式的职位分析，他们所做的是什么。

进行心理学家的介入，以确切了解每个工作的要求。

但这也是一个有些官僚的过程。就像所有这些事情一样。

这些分析可能很快过时。提供更可靠的信息来源关于这些职位分析。

实际上，发布的职位要求在招聘时是什么。

因为最终在招聘时，公司的关注点往往在此。

关于他们在这些工作中所需的内容，人们将做什么，实际上进行规范。

因此，这些职位发布可以成为理解职位技能的良好数据来源。

需要的确，有许多公司，最显著的是一家叫Burning Glass的公司。

他们开发了相当复杂的算法，以分析职位发布并实际。

传授给他们并识别这些工作所需的所有技能。

有时这些分析是跨公司的，因此我认为索尼和彼得会讨论一下。

关于AI如何改变更广泛劳动力市场的一点点。

许多已经进行的研究关注这一点，实际上得出了一致的结论。

以及职位发布作为理解技能需求变化的一种方式。显然，。

这些相同的方法也可以在组织内部使用。

因此，我们可以查看组织内部的所有职位发布，以了解。

这些角色的技能和在职人员的期望技能。因此。

我们应该期待那些经历过这些角色的人拥有什么技能。

然后我们可以利用这些来理解每个角色的需求和技能。

根据他们经历过的工作来评估人员。随着组织变得更加复杂。

让人们自己找到职业变得更加困难。

我们需要给他们指导，帮助他们理解可能性。

但随着组织变得更加复杂，帮助他们理解变得更加困难。

所以这是AI工具真正有帮助的地方，帮助组织理解。

理解职位之间的关系，帮助他们了解组织中的技能分布。

帮助他们建立人们可以通过的职业路径，如果他们想在其中发展职业。

组织。[BLANK_AUDIO]。

P81：18_招聘作为一个例子.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

在这个部分，我们将说明一些关于数据科学的问题。

在一个非常实际、非常重要的问题背景下应用于管理人员问题。

那是招聘的成本。因此，马修稍微谈了一下管理人员决策的总体背景。

在数据科学出现之前，这些决策和行动已经做出。

我们现在将深入探讨招聘。在招聘方面，因为这是目前为止。

至少目前，最重要的人力管理问题。

这是花费最多的方面。仅更换一个人的行政成本就很高。

即使是最低级别的员工，成本也约为4000美元。当你开始考虑人员流动的成本时，往上看。

听到大约两年薪水的估计成本并不罕见。

需要引入新人的情况。如果你犯了错误，那个人辞职，就是一次糟糕的招聘。

这真的很贵。这个行业大约是2000亿美元，帮助公司填补职位。

这是一个非常庞大的生意。它应该如何运作？好吧。

提醒一下，你们大多数人可能经历过这一切。

如果你查看关于招聘如何运作的教科书，他们会说，你从职位描述开始。

这将是所需的。我们在寻找什么样的人。

然后你在某个地方发布广告，等待人们申请。一旦你收到申请。

然后你试图将他们缩减到一个短名单。短名单，你需要更昂贵的筛选。

基本上，也许你会面试这些人并给他们测试。然后在最后。

你做出招聘决策。现实情况看起来完全不是这样。

去年的普查报告显示，大多数人并未在寻找工作。

改变雇主的人并不在寻找工作。他们并不主动找工作。

有人来找他们或诱使他们转移。创建短名单的过程。

现在这一切都是通过申请者跟踪软件完成的。

人们甚至不再接触简历。这是基于关键词的自动化。

这不是人工智能。甚至不是数据科学。只是关键词跟踪。

它只是查看你的简历中是否在某些情况下使用了魔法词。

因为这很复杂，很多公司将其外包。

可能在美国雇佣人数最多的公司是你可能不知道的公司。

我听说过一个叫PeopleScout的公司。他们是一家招聘流程外包公司。

他们为其他公司招聘。每年招募30万人。放在大背景下看。

美国军队每年大约招募120,000名新兵。PeopleScout每年招募30万。

这是一个规模庞大的大操作。我们看看目前是如何运作的。

对于被动候选人有一个很大的推动。这意味着看看我们能否找到没有申请的人并把他们带来。

将他们纳入我们的系统。大多数雇主的目标似乎是让更多更多的人申请。

他们的职位。大多数组织的思考方式，顺便说一下。

我认为这是一个错误。我稍后会提到这一点，把它当作一个漏斗来考虑。

我们试图让很多很多人申请在最顶部。

然后我们会用申请追踪系统筛选他们。从那里开始。

我们会尝试使用其他筛选来将他们拉到漏斗底部。

如果100人在我们漏斗的最顶部申请，多少人。

这些人会获得工作机会吗？好吧，证据似乎表明约为2%。

当你把申请投到电子招聘模型中时，获得工作机会的几率。

去公司申请，或者你去像Indeed这样的招聘网站申请。

你获得工作机会的概率大约为2%。原因是申请工作的人太多。

概率很低，我们有的人申请20个工作，30个工作，100个工作。

我们让人们申请变得简单，所以他们就是这样做的。

这就是现实，接下来是一个非常奇怪的发现。

当公司查看他们的招聘情况时，无论是好还是坏，这是。

他们追踪什么。我们填补一个职位需要多长时间？

我们填补一个职位花费多少？他们没有追踪。

所以可能只有四分之一的人尝试看看我们是否进行了良好的招聘。

想一想。我们在测量成本和速度。

而不是我们是否做得好。如果你考虑审查，比如说。

用这种方式评判餐厅，评判餐厅的标准是快速和便宜。

米其林星级指南的样子真的会不同。如果你只关心快速和便宜。

当我们开始谈论招聘时，有一件事情需要认识到，首先，事情的方式。

现在的情况看起来与教科书不同，第二，对于大多数雇主，我们没有。

我们是否做得好并没有明确的想法。比我们现在的做法更好并不难。

让我们谈谈如何做得更好，以及我们如何将数据科学应用于招聘决策。

两个问题，第一个问题是申请者，很多数据科学的精力都投入到。

尝试寻找那些被动申请者，可能看起来像那些即将。

要求是好的。然后第二个更受关注的是，我们看看申请者，看看是否能。

选择哪些人是我们应该提供工作的对象。我们如何开始？用数据科学。

你开始的方式与数据科学出现之前是一样的。

我们现在试图弄清楚什么是好的招聘，而不是像以前那样说。

让我们看看这个工作的要求，然后我们就。

我们将建立一个申请人跟踪筛选系统或类似的东西。我们说。

“告诉我谁是你最好的员工。”我们首先要弄清楚谁好谁坏。

我们要怎么做？我们在这里也有这个数据问题。

也许没有一个好的单一指标，但我们将采取一个指标，也许是。

绩效评估。我们使用那个。一旦我们定义了什么是好的，我们将尝试识别什么。

我们对那些人有了解。他们上过哪所学校？他们接受过什么样的培训？

如果他们有测试分数，那些测试分数是什么样的？

我们之前的方法是依赖于心理学家主要说的指标，“我们看过。

这些确实可以预测。“通过数据科学，我们并不关心。

告诉我们你知道的一切，因为我们不必一次查看一个。

这些属性是特征。我们将把它们全部放在一起，构建一个模型。

一旦我们识别出我们最优秀员工的所有信息，我们就会说：“好的。”

现在让我们看看你是否能告诉我关于你不优秀员工的信息，因为我们。

需要变化。“就像我们在寻找轴承一样。

我们希望看到那些失败的情况，但也想看到那些没有失败的情况，以便弄清楚它们失败时的原因。

我们在这里试图弄清楚什么与优秀员工相关，同时也弄清楚什么。

与不优秀员工相关。数据科学的不同之处在于我们并不关心这些指标是什么样子的。

它可能是，“只告诉我你知道的关于这个人的所有信息，因为我们完全。

对于解释将由什么驱动保持中立。“正如你所知。

使用机器学习模型和它生成的算法，它是。

这是一个关于那个人各种属性的真正复杂的非线性组合。

到最后，这将为我们产生一个单一的评分。

我们做的第一件事是查看我们的劳动力和我们拥有的数据。我们将其对半分。

我们有机器学习软件将学习的训练数据。

也就是说，它将构建一个模型，以预测我们正在使用的绩效评分。

识别优秀与不优秀的员工。我们将使用第二组数据。

后半部分用于测试它，看它表现得如何。假设它表现得相当不错。

然后我们要做的是我们将尝试。

去找申请者，获取他们在我们所包含的所有属性上的指标。

我们自己员工的模型，他们上过哪所学校，表现如何，在哪里工作。

在此之前，他们住在哪里。任何我们认为可能相关的信息，我们在训练数据的第一个模型中使用过。

为了构建算法，我们必须对申请者提出同样的问题，并获取所有。

那些相同的数据。当我们这样做时，在流程结束时。

我们得到的是每个候选人的分数。分数将反映他们与我们表现最佳员工的匹配程度。

你将获得一个单一的分数。在此之前，在过去。

你可能会给人们性格测试，智商测试或灵巧测试。

三个不同的测试，三个不同的衡量标准。它们进行面试，你得到面试分数。

也许关于他们的推荐信有些事情，你为这些得到分数，总共得到五个分数。

然后你把它交给一些招聘人员，或一些专家，希望他们能跨越这五项进行决策。

我们转向机器学习和算法时，你得到一个数字。

那个数字就是分数，这就是你得到的。我们对这个模型了解多少？

这很可能在预测方面远超你之前所做的任何事情，因为。

它只有一个目标，那就是预测某人将如何表现。

表现良好的人或以前的表现。它不必是心理学家、经济学家或其他人所说的。

过去的表现预测未来。我们关心的只是关联。

我们为申请者测量和捕获的这些属性呢？这些测量。

它们与优秀表现者相关吗？如果相关，你将获得良好的分数。

我们还需要什么？我们需要大量数据。我们需要成千上万的申请者来构建机器学习模型。

除非你是大雇主，否则这将很棘手。

这将支持使用可能拥有大量资源的供应商的论点。

在许多不同公司的众多申请者中，但那里存在一些问题。

有一些法律问题，我们稍后会再回到这个话题。让我们谈谈偏见的问题。

在机器学习招聘的讨论中，偏见引起了广泛关注。

关于机器学习生成的算法，这里有个好消息。

好消息是他们对每个候选人都一视同仁。例如。

如果我们考虑大学学位应该有多重要，那就是。

我们告诉他们的只是大学学位，它将对所有大学学位一视同仁。

它不会对男性和女性的大学学位区别对待。招聘人员。

当他们在查看这些内容时，脑中充满了偏见，他们的判断。

也会充满偏见。当你使用一个算法时。

你不会遭遇任何偏见。每个人都被一致对待。

坏消息是，如果构建算法的训练数据存在偏见，那就会有。

算法本身将存在偏见。它会重复出现。

一个引起广泛关注的例子是，亚马逊构建了一个算法来。

为它进行招聘。这个动机是完全合理的。

让我们看看能否在招聘方面做得更好，同时也降低成本。因为如果我们获得一个好的算法。

我们不需要招聘人员，不必烦恼这个面试。这可能更便宜。

更快，顺便说一下，也许表现更好。当亚马逊开始使用其算法时，他们发现。

分数显示女性的分数低于相同条件下的男性。

这成了一个难题。他们回去后去掉了可能识别性别的任何信息。

或者申请者的性别。例如，去掉了名字。

确保没有任何带有女性或男性色彩的东西。

代词并去掉了所有相关信息。他们发现结果并没有太大变化。

原因是训练数据基于亚马逊之前的员工。

当前的数据也是如此，男性的平均分高于女性。

这部分可能是因为数据中男性的比例过高。

但毫无疑问，在晋升率和整体表现分数上存在偏见。

亚马逊算法正在寻找任何可能显示出。

与性别的关系。例如，如果你上过女性研究课程。

它假设这与女性高度相关，女性表现更差。

如果算法比没有使用时表现更差，你将获得更低的分数。

我们永远不会知道。差异在于你使用了这个算法并将其应用于所有人。

你可以立刻看到偏见，因为你可以查看这些分数，看看男性的情况。

查看女性的情况，看看她们在同一职位上的表现有什么不同。

同样的教育水平，其他法律和法庭可能关心的因素。

你会看到是否存在差异。特别是如果你担心被起诉。

使用这些算法的问题在于，它们可能比你之前的方法更好。

它们可能比你之前的做法更少偏见。

但你可以轻易看到偏见，这就是问题所在。其他问题包括。

如果算法足够好，你可以摆脱这些申请者跟踪系统。

你不必烦恼根据这个或那个标准筛选人选。

把所有结果交给我们，我们会快速轻松地打分。

给他们一个分数。你可能会发现，研究表明一些人最终是。

与工作真正契合的人并不具备你之前认为重要的属性。

我们在哥伦比亚的同事Bo Kogel对这个用于。

招聘，他发现算法能够识别。

在假设需要大学学位的职位上表现优秀的人。

一些获得高分的人声称他们在这方面会表现出色。

工作不再要求有大学学位。问题是如果你只招聘有大学学位的人，你将永远不会。

你要知道这一点。为了真正利用这些算法，你需要用不。

一开始就是在筛选人。未来为了确保算法的持续有效，例如如果人口。

如果工作发生变化，或者你不得不进行一些随机的招聘，这并不是一开始就有的。

筛选掉那些说必须具备这一、这一或这一的工作要求的人。

顺便说一下，这在招聘中一般都是真实的，但在算法下变得更加。

更明显的是，如果你在筛选人，你永远不会知道你是否还需要。

这些屏幕，如果它们仍然合理。算法的另一个问题是你可能会得到一些看起来并不特别的结果。

直观的。例如，多年前我们与一家有业务往来的公司发现。

在他们的申请中，人们居住的邮政编码是一个相当不错的预测指标。

呼叫中心工作流失率的问题。那里的情况实际上是工作地点距离的一个衡量，而这些是。

工资不高的工作。通勤距离越远，缺勤的可能性就越大。

因此你最终离职或辞职的可能性更大。

那是因为低薪工作需要可靠的交通工具，公共交通。

并不总是那么好。一辆真正可靠的车可能需要比很多人拥有的更多的钱。

所以之前没有人考虑过通勤距离，而这些人发现了这一点。

但随后你会看到其他供应商和其他人也在做类似的声明。

一个著名的例子是一个公司声称面部表情可以预测。

你的工作表现。他们是怎么做到的呢？

他们试图将你的面部表情与他们最佳员工的面部表情进行匹配。

公司里的员工，然后根据你的面部表情与申请者的相似程度给申请者打分。

映射到你最佳表现者的面部表情。那么你对此感觉如何？

假设它实际上做出了预测，你觉得这样可以吗？

基于申请者面部表情的招聘模型，你觉得这样可以吗？

还是不？更仔细地看一下，这在数据科学界被称为可解释性。

你可能已经听说过这个。可解释性意味着你能否告诉某人为什么这在某种意义上有效。

比如，如果你不得不在法官面前出庭，而你的面部表情。

该测量对非裔美国人给出的分数更低，因为用相机读取面部表情。

在那种情况下可能会更难做到。假设发生了这种情况，你需要向法官解释你是如何招聘的，你说。

基于面部表情。你觉得这样做会舒服吗？

好吧，当你查看那些数据时，并不明确它是否真的进行了预测。

结果并不明确是否真的能预测，但你可能会得到。

有些证据表明，至少在最初，它是有效的。

其中一个问题是现在有成千上万的供应商。

每个卖方都基于机器学习类型的算法提供招聘解决方案。

在与供应商打交道时，你要非常小心。

无论他们的主张是什么，问他们能否向我展示基于真实数据的证据。

工作表现。我理解你是如何构建算法的，但当你测试并招聘后。

基于这些数据选择的人，实际上这些人表现得好吗？

记住这一点，假如你真的想为自己辩护。

特别是在对抗诉讼时，你的标准对某些群体有不利影响。

女性或少数群体或几乎任何其他受保护的群体，包括每个人。

你能用自己的数据做到吗？如果你无法用自己的数据证明这个算法真的有效，那么如果。

结果表明，这对任何这些类别的人都有一些不利影响。

基本上，大家都面临麻烦。如果供应商告诉你它的预测是有效的，那很好，但这没有帮助。

你需要证明你自己的招聘实践是好的。

所以，你必须考虑的一件事是，你不能仅仅把这些东西从货架上买回来。

即使供应商能够说服你他们的数据看起来很好，但他们的证据显示它有效。

你必须能够在自己的数据上测试它，并做到这一点。

所以，当我们开始考虑将其应用于招聘时，这里是一个复杂的问题集合。

这正是目前大多数活动发生的地方。[BLANK_AUDIO]。

posted @ 2024-10-19 08:43 绝不原创的飞龙阅读(52) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

沃顿商学院商业人工智能笔记-八-

沃顿商学院商业人工智能笔记（八）

P68：5_机器学习的工作原理.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P69：6_训练数据在机器学习中的角色.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P7：6_从大数据中提取情报的数据分析.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P70：7_结构化数据之外的特征工程.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P71：8_评估机器学习性能.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P72：9_端到端示例.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P73：10_人力资源中的AI应用.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P74：11_AI与员工参与度.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P75：12_主题建模.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P76：13_AI与流失.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P77：14_构建流失机器学习模型.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P78：15_流失模型的价值.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P79：16_AI与职业生涯.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P8：7_人工智能简介.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P80：17_技能分析.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

P81：18_招聘作为一个例子.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK

公告