沃顿商学院商业人工智能笔记-四-
沃顿商学院商业人工智能笔记(四)
P16:15_深度学习的工作原理.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
深度学习是如何工作的?
我们已经讨论过可以直接使用原始非结构化数据的概念。
开始使用深度学习进行预测。我们不需要经历这个特征工程步骤。
我们不需要将其转换为列或单独的变量或特征。
用于预测。非结构化数据,我们可以从其原始数字表示开始。
首先,任何我们谈论的非结构化数据,包括文本、声音、图像,它们。
始终可以以某种数字形式表示。因此,如果是音频,它可能是一个频谱图。
图像数据可以通过像素表示。一组文本可以通过单词的向量表示,因此所有这些不同类型。
数据可以以某种原始本地数字格式表示。
数据随后以某种方式预处理,使其在预测任务中标准化。
一旦数据标准化,就会传递到一种叫做神经网络的东西中。
我们之所以称之为神经网络,是因为人们发现这是基于模型的。
本质上是继承自神经元。因此,大脑中的神经元接收多个输入,然后根据。
根据这些输入决定是否触发输出。
非常类似地,深度学习中的神经网络在某种方式上非常相似。
所以,构成深度学习基础的神经网络,数据,这些原始的本地数据。
我们讨论的那个形成输入层,进入神经网络。
就像神经元一样,神经网络基本上在查看输入的数据。
然后根据数据的值,决定是否触发其输出。
或在某个水平上设置其输出。因此,你可以将神经网络想象为一系列决策点或节点或神经元。
输入数据从一侧进入。神经网络由一系列层组成,这些层在进行某种观察。
所有输入数据的不同组合。因此,输入数据不需要转换为特征。
神经网络中的层基本上是自动尝试弄清楚原始非结构化数据的特征。
可以组合和重新组合的数据,以形成最有效的特征用于预测。
最有效的预测组合。因此,这种情况的发生是工程师选择一个损失函数或成本函数来。
与训练标签进行比较。这只是说我们离预测正确答案有多近的一种方式。
所以在这种情况下,你有训练数据,这是你知道正确答案的数据。
让我们回到我们的医疗诊断图像示例。
想象一下,你拥有大量关于人们医疗图像的数据。
关于正确答案的数据,这可能意味着你有关于这个人是否有疾病的数据。
患者的确有该疾病,这是医生确定的。因此你有医疗数据。
医疗图像以及这个人是否实际上有该疾病。
因此,神经网络将尝试处理这些图像数据。
神经网络中的各层将尝试找到正确的组合。
使用原始像素数据进行预测。这个预测将是这个人是否有该疾病。
既然我们已经知道训练数据中的正确答案,我们可以开始比较。
我们多么频繁地做出正确决策,以及多么频繁地出错。
这就是损失函数或成本函数。
这告诉我们与我们拥有的数据所代表的真实情况之间的距离。
训练模型。因此,神经网络将开始前后反复进行。
重新排列节点上的值、权重等。
神经网络的不同部分将开始自我调整,直到它。
达到一个点,原始输入数据被组合、加权并传递到。
预测层的错误最小化。基本上,它将自我调整到一个预测的点。
尽可能接近训练数据中所代表的真实情况。
已被赋予学习的机会。
你可能会听到一些与神经网络相关的术语,比如反向传播。
反向传播是调整网络的过程。
因此,这些网络应称为前馈网络和反向传播。
这些术语指的是数据向前传递,然后不同类型的。
信息在网络中前后传递,以便网络可以进行。
从数据中学习如何以最优方式进行配置以进行预测。
因此,反向传播是该过程的一部分。
深度学习或这些神经网络上下文的一个好处是。
模型中嵌入的信息是非常有限的领域信息。
因此,你是在用计算来替代专家知识。
我的意思是,在这个深度学习案例中,我们所做的是处理医疗。
诊断图像,传递给深度学习引擎,它将学习如何进行预测。
一个患者是否有疾病。使用我们之前讨论的特征工程步骤,浅层学习是。
这是一个步骤,在这个步骤中,某人需要获取图像并查看如何选择和处理。
从这些图像中编码个别特征。这是一个非常耗时和困难的过程。
这种深度学习方法需要的领域信息远远少于。
这确实需要相当多的计算。
不过这很好,但由于特征缺乏领域理解,任务的原因。
提取。
所以当你手动编码特征时,你可能需要开发人员和。
具备显著医学专业知识的人员,采用深度学习方法,深度学习。
或机器学习工程师需要大量医学图像和预测的可靠数据。
最终在这些图像上做出的决策可以自己创建深度学习引擎。
或有效执行预测任务的深度学习引擎。
一个常见的问题是工程师的角色是什么。
在之前的特征工程案例中,工程师的重要性在于能够提取。
提取出单独的信息片段。所以再回到图像示例。
工程师重要的是处理原始图像,可能提取出特征,比如说。
毛细管宽度或颜色阴影等需要图像处理的东西。
一些技术专长。在这里你不再有特征工程,那么工程师的角色是什么?
你有原始数据输入神经网络。那么工程师做什么?
好吧,事实证明,仍然有许多事情需要为深度学习设置。
方法。这些被称为需要工程知识的超参数值,但通常。
较少的领域知识。这些有称为 epochs、batch size、learning rate、regularization。
激活函数、隐藏层的数量。
工程师必须决定多种设置,以使网络能够。
表现良好。这些超参数值必须由工程师管理,但工作流程最终。
变化。
所以再次强调,特征提取不是一个重要的方法,而是没有深度学习。
我们有一个工作流程,其中有输入数据,如图像数据,然后有一个耗时的。
处理过程是从这些数据中提取单独的列变量或特征。
然后将其放入分类或预测步骤,最后你得到输出。
在深度学习方法中,你没有特征提取的步骤。
你可以直接从标注良好的原始非结构化数据开始,放入。
深度学习引擎,你可以得到你的预测,而不需要做任何特征工程。
这再次是昂贵且不确定的。谢谢。
P17:16_深度学习的局限性.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
深度学习功能强大,但在某些方面仍然存在诸多挑战。
使用深度学习。这样可以避免特征工程的步骤,但我们跳过这一环节。
在多个领域,这会带来惊人的准确性提升。因此,问题就出现了。
为什么不总是使用深度学习?有一些缺点吗?
我将讨论三个最重要的方面。第一个是所需数据的规模。
所以第一个问题是,你是否有大量的数据,或者至少是非常大的数据量。
相对于其他方法,深度学习需要更多的训练数据。
比其他方法更需要大量数据,深度学习引擎的表现需要数据的多样性。
这就是第一个问题。紧接着需要更多数据,意味着你需要更多的数据。
存储,以及更多的计算能力。因此,要运行或训练一个深度学习模型。
你真的需要更多的计算能力。你还需要更多的数据存储空间来配合这些数据。
因此,深度学习的硬件需求远远高于其他方法。
其他方法。深度学习不适合特定方法的第三个原因是。
关键问题是,了解模型为什么做出特定决策的重要性有多大。
某个预测模型做出的特定决策。这就是深度学习面临的挑战之一。
通常很难深入神经网络,理解为什么做出了某个特定的预测。
在某些情况下,做出的决策可能朝某个特定方向发展。
理解某个特定预测的原因变得尤为重要。
以医疗保健为例。
如果你对患者做出了判断,能够向他们解释这一点可能非常重要。
这正是为什么做出该决策的原因。
对于像医生这样的专家来说,能够理解这一点可能非常重要。
理解为什么一个算法推荐某种特定结果是非常重要的。
如果没有对此的深入理解,医生可能不愿意使用。
这一推荐。同样的道理也适用于客户贷款处理等。
如果做出了某个特定的决策,能够解释这一点可能非常重要。
向某人解释为何做出了这个决策是必要的。结果发现,其他更简单的机器学习模型。
通常更容易理解算法是如何从数据或输入得出结论的。
数据到最终决策的过程。使用深度学习,这变得更加复杂。
在某些上下文中,这种可解释性或可说明性变得非常重要。
重要的是,深度学习可能并不总是正确的解决方案。谢谢。 [沉默]。
P18:17_评估机器学习性能.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
当我们谈论构建机器学习算法或训练机器学习算法时。
有多种方式可以考虑如何判断算法的表现。
算法表现得好还是不好。当我们构建一个算法时,我们试图教它根据一些标签或。
我们提供的示例。那么问题是,我们应该告诉算法优化什么?
它是否真的在努力尽可能多地正确获取标签,还是它试图。
优化其他事情?例如,确保正确与出错之间可能有不同的成本和收益。
在商业环境中出现的问题。我会在一分钟内给你一个例子。
这可能影响我们如何思考构建一个有效的机器学习算法。
在构建算法时,有许多损失函数或成本函数。
算法试图优化的东西。
有许多事情可以尝试优化。这些有诸如准确性这样的名称。
精度、召回率、特异性。
为什么会有这么多?我们来做个例子。想象有一个应用程序,旨在识别欺诈信用卡交易。
近年来,这是机器学习的一个热门应用。因此。
尝试识别欺诈信用卡交易。在这种情况下。
你有你试图预测的实际值。
你有一些训练数据,这是一组有正确答案的数据集,你在。
尝试以某种方式预测尽可能接近这些答案。
你在训练数据中有实际值,知道交易是否欺诈。
交易是合法的还是欺诈的。然后你有预测值。
交易是否被算法预测为欺诈或合法。
问题是我们如何比较这些列,以决定我们是否会做得好。
想象我们训练算法,它做出了一些预测,我们现在必须判断。
分类器是否表现良好。这个问题看似稍微复杂,因为这取决于。
在这个背景下,从成本和收益的角度来看,我们关心的是什么。
这不仅仅是尽可能多地获得正确答案的问题。例如。
你可能会问,错过一次欺诈交易是否更昂贵。
所以你可以做出的一个决定是,不介意出一些错误。
我只是从不想错过任何一次欺诈交易。另一方面。
可能存在这样的情况:让一个有价值的客户。
信用卡意外被冻结。因此,优化这两种不同类型的事情。
其中之一是你永远不会错过一次欺诈交易。
另一个需要注意的是,你绝不能意外标记一个合法的交易为欺诈。
这些在某种程度上是相互竞争的,当你建立算法时,你必须选择其中一个。
成本更高但收益更高。这些不同的术语特异性、精确度和召回率旨在捕捉这个概念。
在获取不同类型标签错误时,有不同的成本和收益。
预测任务。这对决定我们如何训练算法以及我们关心的内容很重要。
在下一节中,我们将讨论一些具体的损失函数及其工作方式。
计算的结果以及它们中有些可能比其他更重要的情况。[BLANK_AUDIO]。
P19:18_常见损失函数.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
让我们讨论一些更常见的方式来衡量机器学习输出的误差。
也许最简单理解的就是准确率。
所以让我们回到我们的例子,考虑欺诈和合法交易。
在一列中,我们可能有交易是否合法的实际真实值。
或欺诈。在另一列中我们有预测值。
我们的机器学习输出是某个交易是欺诈还是合法。
准确率简单地表示我们正确回答的次数的比例。
所以它基本上是在对比这两列,它是我们。
一列与另一列匹配的情况。因此这就是准确率。
分类错误是其逆。基本上是两列不匹配的比例。
所以这就是准确率。另一个常见的指标是精度。
精度是在询问正识别中有多少实际上是正确的。
那么什么是正识别?所以通过机器学习输出,二元分类器试图预测某事。
在两类中,如合法或欺诈。
这两类中的一类被标示为正类。
一个可以称为一,另一个是零。
所以我们可能会识别出在这种情况下欺诈是正类。
精度所指的是我们实际称之为欺诈的比例。
实际上是欺诈的。如果我们有一定数量的预测是欺诈的,我们将查看如何。
有多少是,我们得到的正确比例。
从某种意义上说,这忽略了一些数据或表现的其他方面。
它基本上是在查看这一特定的片段,这一特定的频率度量。
我们称之为欺诈的案例中,有多少实际上是欺诈。
敏感度是一种不同的方式来看机器学习输出的表现。
在这种情况下,这是在看你抓住了多少相关实例?
所以想想这里的这两列,实际值和预测值。
如果实际值是合法的、欺诈的,敏感度问的是多少。
你抓住了多少欺诈案例?有没有漏掉其中的任何一个,还是你能抓住大部分?
所以敏感度,高度敏感的分类器基本上是让非常少的。
相关实例,实际上欺诈的交易漏掉了。
所以这看的是与精度完全不同的东西。
特异性是在看这情况下合法交易的比例。
负类被正确识别为如此。
所以在那些合法而非欺诈的交易中,有多少是。
被正确识别。因此再次强调,特异性、精准度和准确性。
它们都在从不同的方面看待你在预测中正确和错误的内容。
当你讨论使用一种与另一种进行评估时。
机器学习的输出,我们隐含地做的是在不同的方面赋予不同的权重。
你关心的,是否更重要的是确保,例如,你永远。
错过欺诈交易,或者,例如,确保。
以至于你绝不会错误地将合法交易标记为欺诈。
在考虑这些不同的指标时,会有不同的权衡。
并且有多种方法来思考何时使用这些。
关于使用一种与另一种不同的成本,有一些特定的术语。
你可能会听到真正的正例、真正的负例、假阳性和假阴性。
真正的正例和真正的负例是你正确识别的数量,或者你识别出的数量。
你识别正确的次数。真正的正例是你在正类中识别某物的比例。
在这种情况下,将欺诈标记为欺诈。真正的负例是我们识别合法交易为合法的次数的比例。
交易。因此,真正的正例和真正的负例基本上指示了交易的次数或数量。
我们正确识别的次数的比例。假阳性和假阴性指的是错误,这些通常。
伴随而来的成本。因此,假阳性和假阴性是两种可能导致的不同类型错误。
涉及两种不同类型的成本。假阳性是我们将。
例如,将某些东西视为合法的,但标记为欺诈。
假阴性是我们将某些东西标记为欺诈但视为合法的比例。因此再次强调。
这取决于错过欺诈交易的成本是否更高,或者。
是否更昂贵错误标记某些合法事务为欺诈,这些。
映射到假阳性和假阴性以及不同的成本上。
根据我们在商业环境中关心的内容,我们可能希望优化一种。
与其他指标相比。有多种方式可以表示这些,来可视化这些。
向不同的利益相关者传达这些。其中一个被称为混淆矩阵。
混淆矩阵本质上是一个二维矩阵,为给定案例列出。
真正的正例、假阳性、真正的负例和假阴性的数量。
另一种流行的表示机器学习输出的方法被称为ROC曲线或。
接收者操作特征曲线。这将假阳性与真正的正例进行比较,基本上指示。
这两个指标之间的权衡是什么。
这些是一些常见的损失函数。我们已经定义了它们。在下一个视频中。
让我们讨论一下在什么情况下它们中的某些函数可能比其他函数更可取。[BLANK_AUDIO]。
P2:1_课程介绍.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
本课程将从商业角度讨论人工智能基础。
我们将从大数据的介绍开始。具体来说,什么是大数据?
如何使用它?大数据可以帮助你回答哪些类型的商业问题?
我们接下来将介绍人工智能。
我们将讨论什么是人工智能,什么是机器学习,它们之间的关系。
机器学习方法有哪些不同类型?接下来。
我的同事Sunny Thambbe教授将讨论机器学习在实践中的应用。
他将讨论机器学习可视化,以及最近的发展,例如AutoML,这使得...
非工程师和非数据科学家如何利用人工智能在非常简单的界面中回答商业问题。
最后,我将讨论数据在构建人工智能系统中的作用。具体来说。
现代人工智能建立在大规模训练数据集之上,这意味着公司要想在人工智能实践中蓬勃发展。
它们确实需要访问大量数据。但小公司如何在没有数据的情况下开始人工智能实践?
或者一般来说,公司如何在没有数据的情况下在企业中推行人工智能?
我们将在本课程的最后模块中讨论如何在没有数据的情况下构建人工智能系统。[BLANK_AUDIO]。
P20:19_损失函数之间的权衡.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
在评估机器学习输出时,我们何时想优先考虑某些类型的指标而不是其他类型?
关键问题是,在我们考虑的特定应用或商业背景中,假阴性和假阳性的相对成本是什么?
那么,例如,我们何时可能需要一个高度敏感的测试?
所以考虑一个医疗应用,其中算法正在筛查一种非常严重的疾病或某种类型的癌症。
例如,当我们想绝对确认不遗漏有这种情况的人。
即使这可能会导致错误识别一些有该情况的案例。
即使他们没有。因此,如果你想绝对确保不遗漏任何有该情况的人。
那么我们可能想要一个高度敏感的测试。在这种情况下,我们想优先考虑敏感性。
另一个例子是,这是科学在二战期间实际发展的背景的一部分。
当我们有一个雷达系统试图探测来袭飞机时。
如果我们担心来袭飞机或某种敌方攻击,并希望有一个可以探测潜在来袭飞机的系统。
我们可能想要一个高度敏感的测试。我们不介意几个误报。
但我们希望确保不遗漏任何实际发生的情况。
所以这是另一个例子,在这种情况下我们可能需要一个高度敏感的测试。另一方面。
可能会想要一个精确的测试。可能想说。
在我们说或预测某事是事实之前,绝对要确认这一点。
想象一下你正在开发一个算法,用于预测何时汽车可以左转。
现在我们可能想要在推荐左转决策之前,绝对确认左转是可以的。
即使这意味着我们可能会错过几次左转的机会。
只要我们绝对确定在预测或推荐左转时,左转实际上是可以的,这就没问题。
这就是一个可能优先考虑精确度的例子。
另一个可能优先考虑精确度的例子是识别某种惩罚非常严厉的违反行为。
例如,作弊导致开除。因此我们可能想在实际做出算法决策之前,极其确定某个人的罪行。
即使这意味着我们可能会错过一些实际发生的违反情况。
我们可能希望有一个非常精确的测试,以确保我们不会错误指控某人犯有该罪行或违反,但他们实际上并未犯有该违反。
[空音频]。
P21:20_如何获取训练数据.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
任何机器学习、深度学习及其应用的关键是训练。
模型需要训练数据。所以训练数据确实是机器学习过程的核心。
训练数据再次是算法学习或用于学习最佳映射的数据。
输入和正确的预测或输出。
所以问题是训练数据来自哪里?
当你构建一个机器学习算法时,你从哪里获得大量数据集。
输入数据和应当做出的正确决策或预测。
那数据或考虑到那数据?所以在实践中训练数据可以来自多个地方。
所以最常见的可能是组织中已经存在的档案或历史数据。
在许多领域,已经做出的决策记录可用于训练。
一个模型。例如,简历筛选。所以任何收到大量就业申请的组织都会有一个数据库。
或许是已提交的各种就业申请。这可能包括简历数据。
面试数据,或许最终的决策。
关于一个人是否进入面试阶段的事情,无论他们是否。
最终被雇佣,或许他们在公司以后的表现。
所以这可能是最常见的训练数据类型,即组织中的档案数据。
除了人力资源,当然在财务、会计和运营方面也有类似的应用。
所有这些领域都会有输入和决策的历史数据库。
实际上所做的决策。从招聘到补货到资产交易。
有很多很多的例子,你可以在组织层面上考虑。
所以这是训练数据的一个来源。如果这些类型的数据不可用。
有时人类被用来生成训练数据。
你可以看到文本,你在构建一个新的应用程序,比如说你。
可能需要你的输入数据进行标注,以便它可以用作训练数据来源。
所以考虑图像。这是一个非常常见的应用。
你有很多图像,正试图确定它们是否属于一个类别或另一个类别。
在医疗案例中,如果你有医学图像,你可能已经拥有相关信息。
医生是否识别出某人是否患有疾病。
这就是我们刚才提到的档案或历史示例。如果不是这样的话。
假设你有另一种图像,你正在尝试。
比如说识别图像中的花朵或类似的东西,而你有很多图像。
而你正在努力识别哪些图像有花朵,哪些没有。
尽管有很多平台可以将数据发送出去,图像数据也可以发送出去,。
他们基本上为你众包这类任务。你可以处理成千上万的图像。
在这些平台上提供它们,你可以众包标记任务,确定哪些数据或哪些图像有花,哪些没有。
不要。我所指的是,在这些平台上,会有一些人。
查看这些图像,进行视觉检查,判断是否有花。
他们将以某种方式标记数据,确保返回的数据包含所有图像数据。
原始输入数据与另一列数据相结合,指示某件事是否。
是否有花。因此,再次强调,可以将这种工作众包到成千上万的平台。
会有人进行这类工作,以便正式返回给你。
这也是获取训练数据的另一种方式。
第三种相关的常见方式是使用客户自己来标记数据。
因此,有很多例子,知名平台基本上利用了客户的输入。
创建这些标签。比如说,考虑谷歌和垃圾邮件。
所以 Gmail 在识别哪些邮件是垃圾邮件方面表现出色。
它学习这样做的方式是,从历史上来看。
长久以来,作为 Gmail 客户或用户,我们识别了许多按钮。
等等,我们基本上可以点击识别某件事是否是垃圾邮件。
如果你随着时间从用户那里收集这些数据,你将拥有一个相当。
充满了大量邮件信息或消息信息,并通过这些信息进行识别。
用户会判断这是否真实垃圾邮件。类似的事情。
嵌入新闻推送的社交网络中,有一个。
用户在识别面孔、好友等方面花费了大量时间。
然后可以用来构建一个算法,以识别不同的人等等。
所以有很多例子,平台用户可以通过与之互动来手动。
平台基本上创建了一个供其使用的训练数据集,然后返回。
并实施一个机器学习算法。谢谢。[BLANK_AUDIO]。
P22:21_过拟合问题.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
正如我们所谈到的,算法学习输入数据与输出之间映射的关键在于。
输出的预测或推荐就是训练数据。
这是算法用来学习输入数据与正确关系的数据集。
输入特征和它应该做出的预测。
因此,训练数据是构建算法的关键,但我们真正关心的其实是。
在所谓的未见数据上的表现。整个目的在于预测我们尚不知道结果的情况。
因此对于训练数据,我们需要答案已经知道的数据。
这就是算法学习的方式。但要使其真正有用。
我们希望它能够对我们还不知道答案的数据做出预测。
这就是预测的核心。当我们思考这个问题时。
我们必须考虑过拟合问题。过拟合是一个重要的机器学习挑战。
这就是模型在训练数据上表现良好的危险。我们给它进行训练。
但是当我们将其应用于未见数据时,性能几乎没有提高。
当我们将其投入生产时,开始部署后,它的性能显著下降。
所以机器学习工程师常常需要处理这个问题。
他们试图避免将模型拟合到捕捉到基本噪声的地步。
训练数据。他们不断与这个过拟合问题作斗争。
他们试图在使用训练数据构建准确模型与保持之间找到平衡。
一个仍然能在未见数据上表现良好的模型。
我喜欢用的一个例子是学习测试与学习材料的对比。
想象一下,你正在为考试复习,你有很多你做过的样本测试。
你可以利用历史数据或往年回测来帮助你复习。
所以可能的情况是,你会考虑将材料学习到某个程度。
你参加新的测试并且表现得很好。如果你理解了这些概念,就会有一定的普遍性。
如果你使用旧测试和你所掌握的其他资料来学习这些材料。
你可以学习到一种能够很好地转移到任何新测试的水平。
你也可以回去复习旧测试,以至于你能表现得极为出色。
表现良好。例如,你可能会准确记住那些问题的概念。
这意味着如果你被给了完全相同的测试,你会表现得很好,你会在那个测试中。
非常好。但是如果你被给了一个新测试,那些知识就不会很好地转移。
这与训练过拟合问题类似。
它利用训练数据提取基本关系,但并不是到达某个程度。
在这个独特的层面上,你所挑选的东西并不会转移到任何。
其他数据集或任何你正在使用的样本外数据。
所以挑战总是捕捉模型的相关方面与捕捉的。
以及训练数据中的特异性。这称为偏差方差权衡。
让我们谈谈一个关于客户目标营销的例子。
所以假设我们想进行一次促销,针对特定客户进行目标营销。
如果他们购买特定商品。为此,我们将基于一小组客户的训练数据。
在过去进行促销的地方。我们希望利用这些训练数据来了解未来哪些类型的客户。
更大的人群应该获得那次促销。哪些客户可能会对此做出反应?
所以我们想做的是运行一个模型,挑选出相关属性。
这些客户可能对预测其他客户或未来客户的反应有用。
最具响应性的。这可能与人口统计有关。
这可能与位置或其他客户属性有关。
或者,我们可以想象将模型运行到一个程度,在那里它有点学习。
这个测试可以说是。在训练中,它有点过火,学习了这些客户的特定方面。
数据集中对促销响应的相关性在于那小数据集。
例如,简单来说,在该客户训练数据集中,它可能。
所有名为朱莉的人刚好对那次促销做出反应。
因此,机器学习模型在训练数据集上学习,可以正确地说。
名字为朱莉的客户在训练中是一个很好的促销响应预测因子。
数据。但这可能只是某个单一客户或一小组客户的特征。
在训练数据中。它可能不是适用于更大客户数据集的真实信息。
关键是你希望能够平衡模型,以便它能够挑选。
在训练数据集中提取相关信号,那些实际重要的特征并忽略。
数据集中存在的噪音,这些噪音不会转移过来。
针对一个新的更大数据集。因此,处理这种类型的过拟合真的是最重要的挑战之一。
在机器学习过程中。在下一个视频中。
我们将讨论测试数据在避免过拟合问题中的作用。谢谢。
[空白音频]。
P23:22_测试数据.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
在考虑过拟合问题时,理解这个概念是很重要的。
测试数据是工程师用来避免过拟合的工具之一。因此,测试数据。
也称为保留样本,是一个不用于训练或构建模型的数据集。
但我们可以用来验证模型。因此,在未用于构建模型的数据集上验证性能有助于确保。
该模型在外部样本上也能很好地工作。
因此,可以考虑拥有两个数据集:训练数据集和测试数据集。
我们可以在训练数据上构建模型,模型会。
在训练数据上越来越准确。它将在测试数据上变得越来越准确。
然而在某个时刻,如果它开始对特定特征拟合得太好。
在训练数据中,我们开始看到偏差,模型在测试上表现得不如之前。
数据。
同时拥有这两个数据集有助于我们管理这个过拟合问题。
这个问题帮助我们确保模型正在接受的训练是适用的。
也适用于外部样本。那么测试数据来自哪里?
所以请记住,我们需要一个未用于构建模型的数据集,以便机器。
学习算法没有从中学习,但我们仍然需要可用的正确答案。
在数据中。我们还需要在测试数据中有这些标签。
因此,机器学习工程师常用的方法是从所有数据开始。
他们有标签的大型数据集。因此,有标签的一个大数据集。
可用的正确答案,然后简单地将其分为训练数据和测试数据。
所以你可能会进行所谓的70/30划分,其中保留70%的数据并使用。
用于训练模型,然后保留30%的数据,用于评估。
了解模型在这些外部样本数据上的表现。
这种方法有很多变种,基本上使用相同的思路,即你在训练。
数据是在样本的一个集合或数据集上,你基本上是在验证它。
在未用于训练模型的内容上。
例如,如果你尝试使用保险数据来预测事故发生的可能性。
基于客户属性、驾驶特性等。
你可以做的是,也可以将所有历史事故数据一起考虑。
作为客户属性和特性,你可能会将其分开。
你可能会说让我把最后六个月之前的所有数据用作我的训练数据。
数据以及从六个月前到现在的所有内容,我将使用我的测试数据。
因此,我将从六个月之前的所有数据中训练模型。
我将使用该模型,并查看它在过去六个月的数据上表现如何。
过去六个月的数据不会用于建立模型,但可以用来。
仍然可以用来验证它在未实际使用的数据上的表现。
建立模型。然后在你确信模型在测试数据上表现良好后,再进行下一步。
然后可以将其推广到部署中,以预测即将发生的事故。
未来将基于不同的客户属性和特征。[沉默]。
P24:23_端到端工作流程的示例.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
让我们快速浏览一个端到端的示例,将这些概念结合在一起。
让我们讨论一个之前提到过的案例,即使用机器学习。
特别是深度学习用于识别特定病症,利用医学图像。
因此在这种情况下,第一步是收集大量的医学诊断数据。
包含专家使用这些图像所做的决策的图像。
想象一下,如果你拥有一个包含大量X光片和放射学决策的数据库,那会怎么样。
根据这些图像做出治疗决策。因此,去医院并获取这样的数据库将是一个良好的起点。
可能生成数年甚至数年的医学诊断图像和决策数据。
最终由放射科医生决定一个人是否应该接受特定的治疗。
是否需要某种治疗。因此这是第一步。第二步是注意这些专家。
在这种情况下,放射科医生已经对这些图像进行了标注。
了解一个病人是否有某种病症。因此,我们拥有一个符合这种结构的数据库。
进行预测任务。我们有大量的图像数据,也有大量的决策已被做出。
因此,我们现在可以使用这些数据来构建一个算法,并评估该算法的性能。
我们要做的是获取这些数据。我们可能将其分成训练样本和测试样本。
在训练样本中,我们可以利用这些图像数据喂给深度学习引擎。
我们可以将放射科医生创建的标签输入给它。深度学习引擎。
神经网络将运行以自我配置。
使其能够以最准确的方式进行预测,与此相符。
放射科医生所做的决策,我们可以利用测试数据确保其有效性。
在构建的算法的各个点上,表现不仅良好。
训练数据不仅包括我们可能接触到的其他样本外数据集。
然后可以教机器根据医学图像预测相对的准确性。
判断某人是否有病症。仅仅通过这几个步骤。
比如从医院获取数据库,它具有正确的结构。
它拥有图像数据,并且得到了专家做出的决策。
我们将数据分为训练和测试数据。我们利用训练数据进行预测。
我们使用测试数据来确保它仍在样本外数据上有效。当它表现良好时。
然后我们可以部署这个算法,让它处理图像。
在判断某人是否有病症时,做出的预测或推荐的准确度相对较高。
这里的一个关键点是,在这个过程中我们从未要求任何人坐下来。
描述医学图像的哪些方面暗示某种病症。
我们并不需要那种医学专业知识。它隐含地包含在数据库中的标签里,但我们不需要询问。
任何人都可以坐下来详细解释一下某种情况的具体表现。
X光片或我们应该如何识别它,或者我们应该如何利用图像来判断。
或者某人是否有某种情况。实际上无需与医疗专家或放射科医生交谈。
这实际上就是机器学习的魔力,即数据和计算将最终。
替代多种不同类型的专业知识。当我们以这种方式进行操作时。
这样做有很多优点。其中一个就是一致性。
如果考虑相对于由人类做出的决策的算法决策。
算法能够提供一致的决策。
无论是在繁忙一天的结束,还是在早晨开始,这都没有关系。
这将保持一致性。显然,这也涉及到规模和速度的问题,因为经过训练的算法。
准确做出决策的能力可以扩大到相对准确地做出大量决策。
这在某些类型的任务中表现得非常好。
如果任务能够按照我们之前讨论过的方式进行结构化,那么给定一些。
现在新兴的深度学习工具,以及考虑到深度学习的事实。
可以处理标记的原始非结构化数据,而机器学习算法将完成其余部分。
实际上,构建这些解决方案可能比。
需要和某人深入交谈他们的专业知识。 [BLANK_AUDIO]。
P25:24_自然语言处理.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
随着文本成为越来越有价值的无结构数据形式。
对自然语言处理的关注越来越多。因此,文本可以提供。
当然,这些都是关于市场和商业决策的有价值信号。例如。
在线评论可以告诉我们很多关于产品的信息。它们可以告诉我们很多关于客户的信息。
在线讨论可以告诉我们金融市场活动的一些信息。
所以有很多无结构文本的应用,可以为业务提供一些预测价值。
所以文本可以用于做出预测,但我们首先需要将文本转换为特征。
我们必须查看文本,找出对做出预测或决策重要的内容。
所以当我们考虑将文本转换为不同特征时,有很多候选项。
这包括情感、拼写、文本中使用的单词数量。
我们的做法是首先对文本进行预处理,以便为分析做好准备。
在这里有很多事情可以做,比如修正问题,例如。
空格、额外的空格或标点符号的移动等等。
然后我们基本上会对文本进行处理,识别文本中可能重要的内容。
用于将来的预测。所以文本中特征的最简单例子就是一个单词。
例如,我们可能会查看不同文本中出现的单词,并用它来预测结果。
作为例子,对于在线评论,我们可能会关注具有特定含义的词。
用于对产品销售或重复购买进行预测。
以判断评论是否被认为有帮助。
这由我们选择这些词可能是什么,它们如何呈现。
它可以是情感词,正面、负面词。也可以是关于产品的词。
如果是相机,例如,可能是存储方面的问题,或者可能是其他方面。
关于它使用的格式类型。很多单词可以触发或识别,我们可以用来做基于预测。
关于文本中的语言。不是单个单词。
我们也可以稍微扩展一下,使用更复杂的功能。我们可以使用词的组合。
我们可以使用两个到三个单词组合在一起的词组。
我们也可以构建整体的情感度量等。
因此,情感分析是提取或创建特征的最常见示例之一。
从文本中。这基本上描述了某人在文本中使用的词,任何东西。
从在线评论到推文,再到Facebook帖子。
这就是情感分析,它将说明所使用的语言。
在这些文本片段中意味着某人对什么事情感到更积极。
他们谈论的内容或对所谈论的内容更负面。
还有其他方式可以映射情感,以映射到更大的情感集合。
不仅仅是积极和消极,可能是恐惧,可能是愤怒,这类情感。
我们有这些特征,我们把文本拿出来,提取这些情感等特征。
比如使用了什么类型的词汇。我们也可以考虑在线评论的长度作为一个特征。
我们可以考虑在线评论中使用的拼写或语法质量。
一旦从文本中提取这些特征,就能帮助我们预测结果。
例如,情感可以预测购买行为。
这是一种自然语言或语言将在机器中使用的方式。
学习算法。因此,我们提取语言,创建特征,然后用于预测。
现在深度学习给了我们更多的灵活性,因为它可以开始结合文本内容。
以更丰富或更有意义的方式,而不是我们在手动编码时可能受到的限制。
不同的特征。因此,深度学习给了我们更多的灵活性,但概念上运作方式类似。
举一些例子。让我们谈谈像新闻文章或突发新闻与股票价格变动这样的例子。
所以你可能会考虑创建一个从突发新闻开始的算法。
新闻并生成关于股票价格的信息或预测。
想象一下我们有一个新闻文章或突发新闻的数据库。
然后我们可以从新闻文章中生成特征,比如情感。
比如出现在新闻中的词汇,可能是名字,出现在新闻中的内容。
国家或政治领导人的名字。待预测的标签可能是特定时间单位内的股票变动。
为了更精确,可能我们正在查看特定公司的新闻文章。
我们有突发新闻。我们将考虑报道该公司的新闻。
你将开始生成指示对该公司积极性的特征。
可能涉及到新产品发布、创新或专利的内容。
待预测的标签是该公司在特定时间单位内的股票变动。
所以我们现在有这个训练数据。我们有很多关于新闻中提取的语言特征的数据。
公司。我们有训练标签,即该公司在该时刻的股票表现。
新闻正在突发。我们可以用这个来训练模型。
模型将学习在新闻中提到该公司时使用的语言可能如何。
这将影响或至少预测股票价格的变动。我们将使用训练数据。
我们将保留一些测试数据,以确保模型在运行时的准确性。
我们将模型设置为在测试数据集中表现良好的方式。
然后我们可以将其作为预测模型,使用突发新闻来预测一家公司的。
股票价格将会如何变化。所以这是使用文本的一个应用类型。
使用自然语言处理来进行预测。
自然语言处理的另一个常见应用,而不是预测,是处理。
将文本或语言分组或分类成不同的主题。
这是所谓的无监督学习的一个例子。
我们并不是试图预测标签、类别或分类。
我们基本上试图将大量文本放入不同的组或主题中。
所以主题建模是一个用于描述一种处理文档并进行分类的方法的术语。
按内容对它们进行分类,使其更容易解释。
如果你有一个关于不同主题的大型文本消息或电子邮件数据库。
你可以考虑使用主题建模来处理大约一百万条消息并进行分类。
将它们分成五到十个类别或主题,这样可以更好地理解如何。
根据这些主题做出决策。因此,主题模型基本上会告诉你这些文档应该如何分组。
将它们以一种更便于从商业角度采取行动的方式组合在一起。
以我们的新闻示例为例,想象一下我们有很多。
来自不同机构的各种突发新闻,主题也各不相同。
我们希望处理每天涌入的成千上万的新闻文章。
并将它们分类到商业、科技、科学或娱乐等领域。
这种分类显然使消费者更容易导航和。
找到他们感兴趣的主题或文章。
所以这是主题建模或无监督学习的一个例子,处理大量。
对于非结构化数据,使用自然语言处理将这些非结构化数据转化为。
我们可以以更便捷的方式处理更少的主题,从消费者的角度来看。
从消费者的角度或商业决策的角度。[BLANK_AUDIO]。
P26:25_生成对抗网络和变分自编码器.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
机器学习中最令人兴奋的领域之一就是生成模型。
生成模型变得越来越重要,应用也越来越广泛。
我们主要讨论的模型基本上是区分两个类别的。
它们标记某些东西为真或假,或一或零。这称为判别模型。
生成模型的作用略有不同。
与其将数据分类为两个类别,生成模型问的是“什么”。
其基本过程是能够生成我们所看到的数据类型。
在样本中。这在实际中意味着生成模型可以创建新的数据实例。
一旦它们学习并理解了能够生成我们观察到的数据的过程。
它可以开始利用这些信息创建新的数据实例。
这变得非常有趣,因为它开始在机器之间模糊界限。
学习和我们所认为的传统人类创造力领域。
生成模型在艺术和音乐等领域的应用有很多例子,例如。
也有生成模型用于生成特定的新歌曲。
像乡村或爵士乐这样的风格。这些生成模型产生乐器编制和歌词。
甚至连人声也能模仿。此外,还有用于生成新艺术风格的生成模型。
也有生成模型可用于生成模仿特定风格的艺术作品。
那些传统的大师,例如梵高。
你可以使用生成模型基本上创造出梵高风格的艺术作品。
最著名的生成模型或许是文本应用,特别是GPT-3和GPT-2。
这受到了很多媒体的关注。这类生成模型能够生成文本,看起来像是人类写的。
例如,学生的论文或记者的文章。因此,使用像GPT-3这样的生成模型。
你可以给它一个起始点。
你给它几句话,它基本上会生成沿着这些思路的文本来填充。
几个段落看起来像是由人类写的。
所以有很多关于GPT-3的例子和应用。虽然媒体。
媒体对GPT-3的许多有趣演示进行了报道。
人们当然可以考虑商业应用。
而且这些模型中有许多——现在有一些企业在尝试开发。
针对这类技术的产品。你可以考虑使用这样的技术来创建完整的电子邮件或简化过程。
例如,回复只给出几条要点的电子邮件。
许多技术的应用——一种能够生成新文本的技术。
在给定起点的情况下。现在,这种称为生成对抗网络的变体特别重要。
生成模型的应用。这是一种用于生成越来越多人工内容的技术。
很难与真实内容区分开。因此,生成对抗网络的工作方式是。
有时被称为,它使用两个网络相互竞争。
它使用生成网络创建新内容,然后使用另一个网络。
其基本用途是判断第一个网络的输出是真实的还是假的。
因此,一个生成器不断输出新的人工内容,而判别器则。
观察输出的内容并判断其是真还是假。随着时间的推移。
生成器会学习如何创建内容。
判别器识别虚假内容变得越来越困难。
通过这个过程,生成器发展出越来越多难以区分的内容。
在其真实性方面。有很多例子表明,器官被用于迅速推进我们的。
生成人工内容的能力使用算法。
例如,GANs已被用于大规模生成人工面孔。
机器或人类很难看着图片并判断其。
这是一个人类面孔的图片或其他东西。围绕这个有很多应用。
这些类型的应用同样存在很多争议。
所以当我们思考这些技术时,这些是一些担忧的来源。
比如深度伪造现象的出现。当我们拍摄图片或产品时。
当我们拍摄图像并进行人工处理时。
以你无法判断其真实性或真实的方式进行转换,这正是。
很多争议围绕它们的使用而产生。
另一种与这种生成类型相关的技术是变分自编码器。
编码器或VAE。它们有稍微不同的角色和目标。因此编码器本身。
它们所做的是提取数据,将其简化为更简单的表示。
自编码器可以获取数据,将其简化为更简单的表示,然后。
用于重建自身。因此,自编码器会处理像图像或歌曲这样的东西。
将其简化为自身的更简单表示,然后可以用来重建自身。
现在,变分自编码器特别有趣,因为它可以稍微。
变换一些图像的属性或方面,以我们可能关心的方式。
所以我们可以获取一张图片,将其分解成各个部分,也许在某些方面进行调整。
我们可以改变头发颜色,然后重新创建图像。
这将允许一种称为控制生成的技术出现。
我们不仅是在生成人工内容,而是在生成人工内容。
这是我们可以开始控制其不同之处或如何进行调整的一种方式。
这引入了许多新颖的用例,并对其产生了影响。
这些技术的采用。因此,我们可以以面孔为例。
我们可以使用变分自编码器(VAEs)以特定方式改变面孔。
这在建模事物或简化不同类型方面可能是有用的。
例如,眼镜在面孔上的样子等等。因此,这些技术在这些用例中非常有前景。
受控内容生成在拍照、变化等方面有很多应用。
以更或更少的方式处理那些图片的属性或特定属性。
对于这一用例是有用的。[BLANK_AUDIO]。
P27:26_自动机器学习简介.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
让我们聊聊AutoML。
AutoML是“自动化机器学习”的缩写,AutoML的目标是自动化尽可能多的方面。
尽可能地简化机器学习过程。当我们思考机器学习时。
这里有一个数据获取阶段。你需要准备数据,然后是特征工程。
特征提取、特征选择,所有这些阶段。在进入模型之前。
然后你选择一个模型。你必须考虑调整参数等问题。
当我们考虑构建机器学习模型时,涉及到很多阶段。
AutoML的想法是尽可能自动化这些部分。目标是。
从某种意义上来说,这也是市场的目标,许多公司开始提供AutoML解决方案。
是让机器学习专业知识在某种意义上更容易获得,或者让任何人都能更好地使用机器学习。
无论他们在机器学习方面是否有任何专业知识。例如。
在这里看Google的云AutoML解决方案,你可以看到他们的第一行。
在最上面,他们表示你可以训练高质量的定制机器学习模型。
只需最少的努力和机器学习专业知识。
这些AutoML模型本质上在做的事情是。
是替代大量计算的过程。
这样你就不必太担心你所做的一些特定选择。
在机器学习工作流中。因此AutoML将允许你训练。
一些高质量模型。
这将削弱你的一些选择。你不必太担心某些选择。
AutoML有不同的应用。
至少这是Google的产品。而且还有许多不同的公司。
有与AutoML相关的解决方案。他们有时使用不同的名称。Google使用AutoML这个名称。
但它们都非常相似,因为它们的目标是。
尽可能自动化这个过程的许多部分。
你可以看到他们在视觉方面有应用。他们在自然语言方面也有应用。
我们将通过自然语言界面、翻译等示例来演示。
但这些都将处理一些非结构化数据。
允许你使用它来进行预测。[BLANK_AUDIO]。
P28:27_使用自动机器学习.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
让我们做一个自动机器学习工作的示例,来了解工作流程是什么样的。
以及有多少步骤是自动化的。因此我们将做一个示例,使用机器学习算法来识别垃圾邮件。
文本消息。所以正如你所知,电子邮件文本消息。
系统中出现了大量垃圾邮件,情况严重。
现在算法的应用是自动将其放入垃圾邮件桶。
假设我们有一份文本消息文件,我们想要建立一个算法来识别。
哪些是垃圾邮件,哪些不是。正如你所知。
我们首先需要的是一个训练数据集。所以我们需要一个包含大量文本消息的数据集,然后在一列中标明是否。
确定它们是否是垃圾邮件。所以你确实需要数据,但一旦你有了数据。
自动机器学习的理念是使其余过程尽可能简单。
所以在使用像自动机器学习平台或解决方案时,你当然有。
导入你的数据。所以它在这里要求你导入数据。
我有可用的数据,包括垃圾文本消息及其标签。
让我快速看一下。所以这显示了垃圾文本消息及其标签。
所以在这里左侧,我有一些文本消息,并标记它们是否。
它们是垃圾邮件还是正常邮件,基本上就是指它们是否是垃圾邮件。
因此,想法是我们将使用谷歌的自动机器学习自然语言平台。
从这样的数据集中学习如何识别文本消息是垃圾邮件或不是,并且。
能够在未来使用。关键是要知道,在过去我们必须完成很多步骤。
到目前为止,以及之后使模型达到最佳状态。当你使用自动机器学习时。
你基本上需要上传数据,并且有一个单一的选择。暂时忽略这个。
这是一个已经运行过的模型,但你基本上在这里有一个选择。
开始训练。这真的就是你能做的,训练模型,你训练模型后会发生什么。
它进入谷歌的云端,使用大量计算来找出最佳。
模型用来做这种预测。所以你只需保持不动。你开始训练。
你没有其他选择,只能开始系统运行。
然后发生的事情是它进入谷歌的云端,几小时后你可能会收到。
一个响应看起来像这样。这个响应基本上说你好,自动机器学习自然语言客户。
模型已经完成。
运行时,如果你点击这个链接,你基本上可以看到你的模型表现如何。
如果你回到这个页面,你可以开始看到模型的表现。
它提供了一些关于模型的统计数据,例如精度、召回率等,你可以进行评估。
同时也对模型进行处理,一旦你满意,就可以继续使用该模型。
根据其性能进行评估。你可以将其投入生产,以便开始使用它进行文本分类。
处理信息或垃圾邮件等。因此,真正要知道的关键是,像这样的解决方案几乎是去除了。
在某种意义上,你可以评估所有选择,而不必做出太多选择。再说一次。
像AutoML这样的项目的明确目标是使机器学习对人们可用。
对于没有任何专业知识的人来说,这确实是如此。一旦你拥有数据,你所要做的就是开始训练。
你等待,它会回来,稍后发送一条消息,说明它已完成。
当然,这个问题的另一面是,因为我们使用的是谷歌服务器,所以它将会。
也会带来账单。因此,在这种情况下,它会自动向我收取一定金额的费用。
多少服务器容量被用来构建这个算法。谢谢。[BLANK_AUDIO]。
P29:28_教学机器.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
让我们谈谈无代码工具以及它们如何使机器学习。
深度学习,使越来越多的人更容易接触到,以便人们能够实现想法。
并将它们直接实现,转化为产品和解决方案。
可以广泛应用。所以一个很好的无代码工具示例,使深度学习相对简单的是可教机器。
机器。因此我在这里向你展示它。
这是,当然,这是一个依赖于其TensorFlow的谷歌前端。
引擎,这是一个包含许多深度学习逻辑的包。
所以“可教机器”这个名称是因为你可以像教任何机器一样教它。
学习算法,是一个很好的前端,可以用来尝试稍微玩一下。
与深度学习的结合。因此我们在这里使用可教机器。
所以正如你所看到的,你可以在这个背景下训练计算机来识别图片、声音、姿势。
我要开始了,我会向你展示它是如何工作的。
好的,我们在这里使用可教机器。我们有许多不同的模型。
它说很快会有更多的选项,但我们这里有一些不同的选择。
基于图像的深度学习种类,图像分类。如果你想做音频。
音频分类,姿势分类,例如,如果你想。
教它识别姿势。我们将从图片开始。
我们将在这里尝试一个图像项目。我将点击这个。好的。
所以我们这里有一个界面,我们可以在这里训练机器。
模型来分类或识别不同类型的图像。
图片可以有多种不同的类别。我在这里只做两个。
我将从一个简单的例子开始,就是教它识别猫和狗的区别。
所以正如我们所讨论的机器学习,作为起点你需要一个数据集。
而且这个数据集必须包含大量示例。在这个案例中,它将有很多图片示例。
以及这些宠物的图片,这些宠物将被分类为猫或狗。
一旦我将这些数据输入深度学习算法,从那时起,它应该能够。
能够学习或识别任何未来的图片,比如猫是什么或狗是什么。
我要做的是将猫的图片上传到第一类。
我要上传狗的图片到第二类。
所以这基本上隐含地表示这里有一堆猫和狗的图像。
首先作为训练数据集。
我将上传这个。所以我将把我的狗放入类别一,我会。
我将在这里上传一个。
数量。好的。
现在这些狗的照片正在上传到可教机器中。
我将为猫做同样的事情。
我能做得越多,模型的表现就会越好。
我将从相对较小的图像数量开始。
例如,但一般来说,对于这样的引擎,图像和示例越多。
你提供的越多,它的表现就会越好。所以现在我基本上给了。
可教的机器示例有两种类型的图像,狗和猫。
我将训练模型。我将点击这个只是为了让你知道发生了什么。
有多种选择。这些被称为超参数,你可以。
你不需要做任何事情,但它们在向你展示幕后发生的事情。
但这些只是超参数,你可以调整以使模型在不同的方式下工作。
当我现在训练模型时,它将开始准备训练数据。
运行模型。这将需要一段时间来考虑,现在正在运行。
它正在运行,模型。正在处理图像。所以它将说模型现在已经训练好。
我将点击文件。在这里,现在我可以拥有一个能够基本识别猫或狗的训练模型。
如果我在这里放入一张猫或狗的图像,它应该能够自动识别。
无论是猫还是狗。这当然不是这些图像中的任何一张。这就是训练数据。
但如果我在这里放入一张新的猫或狗的图像,它应该能够合理地识别。
识别猫和狗的。
让我们回到一个文件夹。我将点击这里,我有一个。
我也有一个可用的测试数据集。
我将点击它。如果我说这看起来像一张狗的照片。
如果我选择上传,它将说这是类别一,再次是狗。
以相对较高的确定性。如果我在这里选择另一张图像。
让我们看看。这又是一只狗。我也会做那个。然后我可能会做一只猫。
这个模型百分之百确定是一只狗。这次图片中没有人。
所以可能对它来说识别起来稍微容易一些。
现在,如果我转到一只猫,它会翻转过来并识别出那是一只猫。
关键在于有这样的界面,我几乎不需要进行编码。
我几乎不需要真正理解机器学习算法。
关键是将数据整理好,然后以一种可以训练自己的方式传递给界面。
这样它就可以自我训练。然后从那时起,你可以开始在数据上部署它。
你甚至可以以一种更广泛使用的方式导出模型。
所以像这样的应用程序越来越多,使得使用深度学习变得越来越简单。
适合那些有想法但不一定具备机器学习专业知识的人。
[BLANK_AUDIO]。
P3:2_大数据概述.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
在本模块中,我们将讨论大数据。
特别是,我们将从对大数据的概述开始。
我们将讨论一下在大数据领域所需的技能。
我们将讨论大数据工具和基础设施。
我们将通过讨论数据挖掘和搭建舞台来结束。
关于机器学习,我们将在第二模块中讨论。
首先,让我们探讨一下究竟什么是大数据。现在。
数据无疑是一个存在已久的概念。
近年来对数据的重视日益增加。
我们听到诸如“数据是新石油”、“数据就像原油。它很有价值。”这样的短语。
但如果未定义,就无法真正使用。
未来学家约翰·奈斯比特表示,我们首次拥有一种经济。
这是基于一个关键资源,即信息,不仅是可再生的。
但它也是自我生成的。资源的枯竭不是问题。
但淹没在其中才是真正的问题。
现在,我们已经听到了这样的短语一段时间。数据对商业已经非常重要数十年。
但对大数据的关注或重视相对较新。现在,大数据,顾名思义。
是关于大量数据。事实上,国家标准与技术研究院表示大数据。
超出了传统方法和计算机系统的能力。现在。
数据量无疑是大数据的一个关键方面,但它不仅仅关乎体量。
当我们谈论大数据时,我们是在谈论不同结构的数据。
我们谈论的是以不同速度产生的数据。
我们谈论的是分析数据的不同工具。而最重要的是。
从管理的角度来看,我们谈论的是不同类型的业务。
我们可以用它来回答的问题。现在,考虑大数据的一种方法是通过大数据的三个 V。
数据的体量、多样性和速度。数据的体量意味着我们不再谈论 TB 或 PB 的数据。
简而言之,那些无法放入我们的笔记本电脑和个人电脑的数据。
这种数据是我们无法在 Excel 中打开并直接开始分析的。
数据的体量正是关键所在。在多样性方面。
我们提到的是我们不再讨论结构化数据。
我们谈论的是无法在 Excel 电子表格中分析的非结构化数据。
意指文本数据、音频数据、视频数据,其中隐藏着我们想要提取的智能信息。
在速度方面,我们指的是数据不断流入的理念。
数据每秒和每毫秒都在流入。我们需要能够实时分析数据并作出决策。
这就是数据速度的全部意义。当我们谈论大数据时,有时会提到第四个V。
数据的真实性或准确性是我们所接收到的信息。
数据的真实性指的是数据来自多个来源这一点。
并且这些数据不像过去那样经过筛选。因此,你可能会看到来自社交媒体平台的数据。
这意味着用户生成内容,而这些内容可能并不完全是高质量数据。
因此,我们需要考虑这一点。
我们也可能会面临数据不一致或数据不完整的问题。
所以数据的真实性也成为了一个第四个问题。
这对大数据来说是非常关键且不可或缺的。现在,当然。
一个自然的问题是,为什么对大数据的强调如此新?其实。
归根结底,有两件事。第一是计算能力。
计算能力正在以指数级增长。
我们存储数据和处理数据的能力正在以指数级增长。
这使得今天的大数据工具变得可用,而十年前这些工具根本不存在。
第二,数据生成本身正在发生转变。在过去。
数据是以集中方式生成的。
而且数据是有限的。相较之下,今天的数据是以去中心化的方式生成的。
有大量的用户生成内容,例如,我们的客户正在生成这些内容。
有来自移动设备的数据,来自每个单独用户的数据。
有来自成千上万传感器生成的数据,公司可能在其制造设施或零售店中使用这些传感器。
所有这些因素导致了数据的爆炸性增长,真正关注的是数据的转型。
但最重要的是,大数据也改变了管理者能做的事情。
特别是,大数据使得管理者能够提出他们之前根本无法提出的新问题。
而且它们也有助于更好地回答老问题。
在提出新问题的能力方面,考虑一下一个市场经理试图为新产品设计营销活动的问题。
管理者必须决定强调哪些产品特性。如果是手机。
管理者必须决定我们是否应该讨论手机的电池续航。
或者我们是否应该谈论手机的精美设计?
或者我们是否应该谈论用户界面及其友好性?
或者我们应该谈论品牌本身,并在我们的营销活动中谈论我们的社会和慈善倡议?
这些问题很难回答。在过去,它们部分依赖于直觉。
部分由小规模用户服务推动。但现在,营销经理可以查看社交媒体平台上的数据。
他们可以查看Twitter、Facebook和其他平台的数据,看看顾客真正欣赏和享受我们产品的哪些方面。
社交媒体平台上的数据有什么能够表明我们品牌与其他品牌不同的特征?
他们可以利用这些数据精确地制定营销信息。
这在过去可能不可行,但通过可以在社交媒体平台上分析的大数据,现在是可行的。
我还提到过,大数据使我们能够更好地回答那些老问题。例如。
考虑信用卡欺诈检测。信用卡欺诈在金融服务行业非常猖獗,给这些公司带来了数十亿美元的损失。
在过去,检测很困难。而且通常是在事后很久才被发现。
例如,顾客可能看到他们的信用卡账单,得出某个交易是欺诈的结论,可能会拨打客户服务中心并标记该交易。
然后它被修正。但这是事后处理的,通常很难真正追回损失的钱。
相比之下,今天借助大数据工具,公司可以即时分析交易。
在顾客在终端刷卡后不久。
大数据工具可以分析他们的交易并判断是否存在欺诈行为。
这不仅帮助更快地检测欺诈,还能在以前无法实现的规模上进行检测。
这为金融服务公司创造了大量价值。
而大数据的价值不仅限于金融服务公司。
我们在医疗保健、教育等多个行业中看到应用。
运输和更多领域。
例如,如果你看看医疗保健,近年来可穿戴设备的趋势非常明显。
许多消费者佩戴像Fitbit这样的设备。
这些设备能够捕捉心率、睡眠模式的数据。
运动以及我们日常生活的许多其他方面。
这种数据最终帮助消费者采取更好的行动,以改善他们的福祉。
同样,考虑运输。道路上有传感器可以捕捉交通模式的数据。
路闭、事故。现在这种数据可以实时在我们的移动设备上获取。
这帮助我们更好地规划路线,有助于调度,并且最终成为像谷歌地图以及许多我们日常使用的其他地图系统的基础。
这些只是大数据应用的几个例子。
实际上,在模块 3 的后面,我们将研究大数据在多个行业中的其他应用。
我们还将探讨机器学习如何在这些行业中用于从数据中提取智能信息。
[空白音频]。
P30:29_TensorFlow游乐场.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
随着越来越多的人使用机器学习,越来越多的企业也在。
使用机器学习,有越来越多的工具可以帮助理解一些。
更好地教会机器学习是如何工作的,以及你可以做出的不同选择。
权衡是什么。这是一个名为TensorFlow游乐场的示例。
针对谷歌的TensorFlow包,它封装了许多深度学习的内容。
逻辑,还有其他一些选项。
谷歌在提供一些这样的工具方面一直处于领先地位。
他们当然有兴趣尽可能简单或透明地进行。
让人们使用他们的软件,并理解不同部分和元素的。
如何组合在一起。因此,这是TensorFlow游乐场。
这是众多可在线使用的工具之一,用于理解不同类型的。
深度学习或机器学习,深度学习的工作。
所以TensorFlow游乐场本质上就是突出或说明不同的。
你在深度学习网络中有哪些选择。我们正在讨论深度学习。
我们已经讨论了如何将数据输入到网络中。这里运行着神经网络。
学习如何进行预测。并不需要很多领域专业知识,但有许多超参数。
仍然需要调整和调优,以使网络高效学习。
学习工程师必须理解如何以最佳方式调整这些参数,以使得。
尽可能准确地进行预测。这只是一个界面,让你可以玩弄一些这类参数。
对它们的作用和神经网络的理解,以及它们如何结合在一起。
所以我们讨论了神经网络是由深度学习网络组成的。
一些隐藏层。在这里你可以调整或减少层的数量。
这将是一个深度学习引擎,它接受多个点并进行分类。
它们基本上绘制了一个作为分类器的边界。
所以,考虑机器学习或深度学习的一种方法是如果你有一组点。
是考虑在它们之间绘制一个边界。
这个想法是给定这样的点,在哪里是我可以画出一个边界的最佳位置。
如果我说边界一侧的所有内容都是类别A,另一侧的所有内容。
类别B的地方,我仍然会尽可能准确。哪里是划定那个边界的最佳方法?
因此,这将让你从多种不同的点分布开始。
开始观察网络在不同假设和不同参数下的表现。
设置中。因此在这种情况下,如果我可以始终在这里运行网络,你可以改变这些参数。
如果我在这里运行网络,它将画一条线并分割这些点。
这是我在这里展示给你的训练数据集。
所以它可能会学习到在对角线某处进行分割。
说对角线右上方的所有点将属于某个类别。
蓝色对应于。左下角将是对应的类别。
想法是,当我获得一个在右上角空间中的点时。
它将在未来被分类。它将被分类为蓝色或其他类别。
橙色也是同样的情况。所以如果我运行这个。
它可能会在对角线某处创建一条线。所以它在思考。
主要要知道的是,它基本上是在向你展示或说明深度学习的工作原理。
引擎正在思考。它在向你展示每个不同节点层的输出,以及它们是如何工作的。
组合以创建下一步。所以这又是。
另一个——这是一个学习深度学习引擎如何构建的工具。
什么不同的参数会影响它们的性能。
我可以开始调整激活函数。我可以调整学习率、噪声和训练数据。
所以我可以进行各种调整,看看它们如何影响深度学习的效果。
网络学习以及如何做出预测。[沉默]。
P31:30_机器学习运维.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
在这次讲座中,我们将讨论 MLOps 或机器学习运维。
这是你在与数据科学家合作时可能会遇到的术语。
这是一个有用的术语,但在我们深入讨论 MLOps 之前。
谈论 DevOps 或开发者操作是很有用的。
这是一个在软件世界中已存在并被频繁使用的术语。
开发。ML DevOps 是指开发者用于构建、测试和部署的实践和工具。
在生产环境中运行代码。每当开发者对非常大且复杂的代码库进行更改时。
恐惧在于,这些变化可能会在代码中引发问题,并导致软件意外失败。
因此我们需要一种更系统的方法来对软件进行更改。
一种涉及创建新代码分支的方法,可以在不影响主分支的情况下对该分支进行更改。
触及生产代码,然后在进行更改前使用自动化测试对软件进行测试。
将代码合并回主代码,并最终推送到生产环境中。
现在传统 DevOps 有两个主要组成部分。
一个称为持续集成,另一个称为持续部署或 CI/CD。
简称 CI。CI 指的是创建主代码分支的实践。你进行更改。
你推送它,测试它,最终合并更改。
持续部署或 CD 指的是在代码最终推送之前运行的测试。
推入生产环境。因此,这是标准的 CI/CD 流程。
现在,机器学习模型的开发也需要对细节给予谨慎关注。然而。
与传统开发操作有一些关键区别。在机器学习系统中。
代码并不是唯一的变化来源。随着用于训练和验证模型的底层数据可能会随时间变化。
机器学习模型本身可能会随着不断的再训练而改变。
在任何机器学习系统中,机器学习模型的输出也可能会。
还需要对其进行验证和质量检查。这是因为随着模型的演变。
我们事先不知道系统在所有不同情况下的正确输出是什么。
因此我们需要关注细节。
市场上有许多工具被数据科学家和开发者使用。
MLOps 的范围广泛,包含用于管理机器学习硬件基础设施的工具。
机器学习通常需要一些定制的硬件,例如不同种类的处理器。
被称为 GPU 的硬件用于进行机器学习。存在管理这种基础设施的工具。
有数据管理工具,也有管理模型本身的工具。
用于将这些模型部署到生产环境的工具。
以及监控AI模型行为的工具,意味着监控AI模型的输出。
并确保输出与我们预期的一致。现在。
市面上有许多工具。例如。
亚马逊有一个名为SageMaker的工具,可以处理许多这些功能。
我提到的MLOps。像PaperSpace和其他一些工具。
还有一些专业工具。例如。
PackyDerm是一个专注于数据管理和模型管理的工具。
还有其他工具可以用于不同功能,例如。
专门关注部署等的工具。
这些工具对于数据科学家来说非常重要,以确保机器学习。
他们构建的大规模应用能够良好运行且无故障。[沉默]。
P32:31_鸡生蛋还是蛋生鸡.zh_en - GPT中英字幕课程资源 - BV1Ju4y157dK
在这次讲座中,我们将讨论数据在构建机器学习系统中的作用。
而挑战与在没有访问非常大数据集的情况下构建AI有关。
事实上,很多年前,我与一位来自金融服务行业的先生交谈过,他。
他告诉我他们行业因信用卡欺诈而损失的巨额资金。
我开始想象一个机器学习系统如何更好地检测或预测欺诈。
交易并帮助防止银行遭受巨额损失。
所以我简单考虑过创建一个初创公司来开发这些类型的。
系统。但是当然,为了构建这些系统,你需要训练数据。
与银行交谈时,很明显这是重要的专有数据。
银行不愿意分享。这突显了有一个能够解决重要问题的系统构想所面临的问题。
商业问题,但没有数据来构建这些系统。
这是机器学习中的一个常见问题。在之前的课程中。
我们讨论了各种机器之间的性能差异。
学习算法相较于性能差异通常可以相对较小。
在相同算法之间,数据多与数据少的区别。换句话说。
在许多情况下,更重要的是获取正确的。
这类数据以及大量此类数据用于训练这些机器学习算法。
现在现有公司通常不面临这个问题,因为他们通常拥有。
一串数据可以用来启动他们的AI飞轮。
但新产品可能会面临“鸡生蛋还是蛋生鸡”问题,因为没有用户,他们就没有。
有了数据,他们才能更轻松地构建他们的AI产品。
企业家无疑面临这个问题,但产品经理在努力时也是如此。
用来开发新产品。
我将讨论五种可以用来解决这个“鸡生蛋还是蛋生鸡”问题的策略。
在构建AI产品时的“鸡生蛋还是蛋生鸡”问题。第一种策略是从一个生成所需数据的非AI产品开始。
因此,创建一个解决客户问题的非AI产品或服务可以帮助生成数据。
这些数据可以用来训练一个AI系统,增强现有产品。
或服务,或者帮助创造一个完全新的但相关的服务。例如。
让我们看看Facebook。今天,Facebook是一个非常重度使用AI的公司。
但Facebook并没有一开始就使用人工智能,因为他们没有数据来做到这一点。相反。
社交网络平台专注于解决一个不同的问题。
在帮助人们连接。但是一旦平台建立,很多数据便生成了。
这些数据随后被用来训练AI系统,以帮助预测信息类型。
人们希望消费,这反过来帮助个性化Facebook上的新闻推送。
也使得进行精准广告成为可能。
同样,我们来看看保险科技公司Lemonade。
Lemonade是一个用户友好的保险产品。Lemonade并没有一开始就拥有构建AI系统所需的数据。
他们反而构建了一个非常易于消费者使用的产品,一旦他们拥有。
足够多的消费者后,他们现在拥有可以用于构建AI系统的数据。随着时间的推移。
他们正在使用AI生成保险报价,并利用它以自动化的方式处理索赔。
以自动化的方式检测保险欺诈。据该公司称,如今。
实际上,96%的索赔首通知损失由AI管理。同样。
多数保险索赔的索赔解决是在没有人工干预的情况下处理的。
涉及AI系统的参与。这是一个有趣的例子,即使愿景始终是建立一家公司。
使用AI重新构想保险的样貌,他们从一个简单的产品开始。
他们最初没有使用AI,但随着时间推移,逐渐加入新的AI能力。
足够的用户数量使得AI飞轮因而被打破。
另一种可用的策略是与拥有你所需数据的组织建立合作关系。
需要。例如,你可能能够与拥有数据但缺乏的公司合作。
AI专业知识。这在难以创建产生所需类型产品时特别有用。
你所需的数据。例如,假设你需要来自患者的医疗数据,而这种数据很难获取。
数据量大,打破AI飞轮很难,并且在这些情况下很有用。
与公司合作。例如,最近谷歌与斯坦福医学合作,他们。
从斯坦福医院获取患者数据,并与谷歌的云结合。
他们的AI能力以解决医疗环境中的重要问题。例如。
他们正在做的事情之一是查看警报数据,基本上是警报。
来自医院环境,并能够区分虚假警报与真实警报。
需要关注的案例,这在住院患者环境中非常有价值。
在你需要监控患者等场景下,这种方法的一个陷阱是潜在合作伙伴可能更愿意与已建立的公司合作。
大型科技公司如谷歌与小型公司相比。
这就是识别合适合作伙伴的重要性,同时也要创造性地思考。
例如,你可能能够从家族企业获取数据并加以利用。
利用这些构建新的AI产品和服务。第三种策略是众包所需的标签数据。
还有许多设置中可获取的数据,但这些数据的标记不够清晰。例如。
可能有大量的图像数据集可用,但这些图像可能无法。
被标记,而我们不知道图像中有什么。
在这里我们可以使用云众包平台,如Amazon Mechanical Turk或scale.ai来获取。
我们所需的标签数据。
例如,考虑Google对验证码的使用。这是我们查看图像并标记图像中内容的方式,以便能够。
访问一个网站,例如,或者验证我们确实是试图。
访问一个网站。这在安全性上具有重要意义,但同时。
Google能够使用这一点,同时众包大量图像,这些图像可以用于。
其他机器学习任务。作为产品经理。
还需要考虑我们如何创建允许的工作流程。
客户在使用产品的过程中帮助标记新的数据,这样就不会造成干扰。
对用户来说,但实际上它们可以帮助我们创建所需的标签数据。
例如,考虑一个生成警报的网络安全产品,并且它有一个工作流程。
在这种情况下,运维工程师可能通过标记哪些警报是真实的来解决这些警报。
以及哪些是真正的误报。在设计这样一个工作流程时。
我们自动获得标签数据,从而使我们能够。
构建一种可以自动解决这些警报的机器学习产品。
认真考虑像Pandora这样的音乐推荐服务,以及其他用户可以提供的。
对推荐进行反馈,比如点赞或点踩。
这再次使系统能够获取标签数据,从而使机器学习算法得以使用。
随着时间的推移不断改进。另一种可用的策略是利用公开可用的数据。
如今在线上有许多数据来源,以及多个数据市场。
近年来出现了很多这样的情况。
尽管基于公开可获取数据构建的产品可能防御能力较弱,但防御能力可以。
可以通过其他产品创新来构建。而且不仅有许多公开可用的数据集。
还有许多公开可用的预训练机器学习算法可以下载,然后进一步自定义。
使用诸如迁移学习的机器学习方法。
总之,在我们得出所需数据集可能不可用之前,我们应该查看。
适用于许多公开可获取的数据集以及公开可用的机器学习。
构建我们的AI系统,利用可用的数据集和机器。
学习模型。
最后,我鼓励你重新思考对数据的需求。
虽然今天大多数实用的人工智能是建立在机器学习上,尤其是监督学习。
机器学习需要大型训练数据集,但还有许多其他方法。
在没有大型数据集的情况下构建人工智能。实际上,在之前的课程中,我们谈到了强化学习和专家系统。
强化学习算法是人工智能系统在没有大型训练数据的情况下开始的技术。
数据集相反,它们通过采取行动并观察结果进行学习。
实际上,谷歌开发了一种名为AlphaGo的人工智能来玩围棋策略游戏,该系统。
能够击败围棋世界冠军。后来谷歌开发了AlphaZero,这是一个没有训练数据的人工智能系统。
这是基于强化学习的系统,实质上使用了实验。
学习良好而强大的人工智能策略。
另一种可用的方法是构建专家系统。
回想一下,专家系统是简单的基于规则的人工智能系统,用于编写规则。
由专家使用。因此,例如,如果我想建立一个专家系统来诊断疾病,我会采访。
大量专家,医生,询问他们用于诊断疾病的规则。
我会创建一个编码这些规则的人工智能系统。
这样的专家系统不太可能与监督机器学习系统表现得一样好。
基于非常大且庞大的训练数据集,但这些系统可能足够好以获得。
一旦开始,如果你获得了足够的早期用户,你就可以构建更多内容。
使用训练数据构建复杂的人工智能系统。
简而言之,数据是现代人工智能系统中非常重要的一部分,特别是监督学习。
机器学习系统。围绕人工智能的任何策略都应涉及强大而精心开发的数据策略。
管理、数据收集和数据标注。然而,当数据访问成为瓶颈时,这不应阻止公司进行。
雄心勃勃的人工智能项目。可以使用我们刚刚讨论的一些策略来发挥创造力。
谢谢。[BLANK_AUDIO]。