人工智能、机器学习、统计学和数据挖掘有什么区别-AI快速进阶系列
1. 简介
在本教程中,我们将讨论人工智能、机器学习、统计和数据挖掘之间的区别。
这些概念之间存在显着重叠,并且没有明确的方法来分隔它们。多年来,研究人员和工程师对这个问题表达了不同且经常相互矛盾的观点,因此没有达成共识。
2. 人工智能
让我们从人工智能(AI)开始。一般来说,人工智能的目标是构建能够自行解决我们摆在他们面前的问题的代理,就好像他们像人类一样具有与生俱来的智能一样。使这个领域如此丰富的原因是定义和构造代理的丰富方法。
例如,手写识别软件是一种人工智能代理,因为它可以在没有人工帮助的情况下读取手写文本并将其转换为数字格式。它从手写数字和字母的机器可读图像中学习这种能力。
另一个例子是下棋程序。它通过考虑对手可能玩什么来寻找最佳的移动顺序来下棋。这种AI代理的智能不是来自数据。相反,它源于代理如何搜索最佳移动。
还有其他例子,例如数独求解器和机场航班时刻表。智能代理的概念是其中的核心。更准确地说,我们说人工智能构建了理性代理。在这里,理性意味着根据我们对所有替代方案的了解,始终如一地选择最佳可用选项:确定最适合笔迹的单词,导致最快赢得国际象棋比赛的举动,等待时间最短的航班时间表等。
3. 机器学习
机器学习 (ML) 是 AI 的一个子领域。暂时从一般的AI术语退后一步,我们会说ML将学习算法应用于数据集,以获得预测新数据的自动化规则。
例如,我们可能有兴趣预测基于公寓的销售价格。我们有各种单位特征(例如平方英尺大小)及其最终销售价格的数据。从数据集中引入质量预测规则是 ML 的一项工作。这些规则可以采用不同的形式,例如树、线性回归中的数学方程或神经网络。因此,我们不是手动制定规则,而是使用 ML 自动提取它们。
但是,鉴于我们对AI的了解,我们看到查找ML规则属于构建AI代理。例如,我们可以将价格预测规则限制为以下形式的方程:
(1)
我们的目标是发现最准确的。这就像构建一个人工智能代理一样,在它可以使用等式(1)预测的所有价格中,输出最有可能为真的价格。因此,ML是AI的一部分,它使用专门用于此的算法从数据构建代理。
4. 统计
与AI的关系不同,ML与统计学的关系极具争议。许多研究人员,尤其是统计学家,会争辩说ML只是一个更名的统计数据。这一论点并非没有道理。但是,有许多研究人员持质疑观点。为了了解为什么,让我们首先(尝试)定义统计信息。
4.1. 什么是统计?
大多数人会将统计学描述为数学的一个分支,用于仅使用样本对总体进行推断。
例如,我们可能想了解美国青少年的平均身高。衡量所有美国青少年是不切实际的。相反,我们可以随机选择全国的几所学校,并测量每所学校十名青少年。这样,我们就会得到一个身高样本,其平均值告诉我们整个青少年人口的平均值。
同样,我们可能有兴趣了解温度如何影响工业过程或公寓中的房间数量如何影响其销售价格。
统计学发展了回答这些问题的方法。这样做是非常正式的。它的所有工具,如假设检验和描述性统计,都带有性能的数学证明。例如,我们知道围绕样本均值构建的置信区间保证捕获时间的实际总体均值。然而,这些证据依赖于在现实中可能不成立的假设。例如,常见的假设是样本元素的统计独立性和数据的正态性。
4.2. 为什么机器学习是统计学?
支持这种观点的研究人员认为,从数据中诱导(任何形式的)预测规则无非是对产生这些数据的过程进行推断。例如,ML为我们预测公寓价格的方程也是对整个公寓“人口”遵循销售的一般规则的推断。同样,推断有关统计信息中数据生成过程的一般规则可以预测新数据。
为了支持这一论点,人们还说,一些核心的ML模型(如线性回归)最初是在统计学中开发和研究的。他们更进一步,断言所有ML模型都是统计工具。唯一的区别是前者的可解释性较低,计算要求更高。更重要的是,一些研究人员表示担心ML是统计数据做错了。原因是自动化建模缺乏适当的严谨性,只有通过人类的参与才能实现。
4.3. 为什么机器学习不是统计学?
但是,许多ML研究人员强烈反对这些说法。他们会争辩说,对预测的关注使ML与统计学不同。大多数时候,尤其是在行业中,性能指标才是最重要的。因此,具有数百个内层的深度神经网络是完全可以接受的 ML 产品,如果它的预测是准确的,即使它本身是不可解释的,并且不允许任何推理。另一方面,统计学家使用这样的黑盒模型会非常不舒服。
此外,由于 ML 专注于预测性能,因此它会在保留的测试数据上验证其模型,以检查其泛化能力。但是,统计信息不会将样本拆分为训练集和测试集。
此外,ML似乎比统计数据更关注训练其模型和处理大型数据集的工程和计算方面。原因是统计学家开发了他们的工具,精确地处理小样本,以避免处理大量数据。相比之下,ML工具起源于计算机科学和AI领域,因此科学家们从一开始就考虑了算法及其实现方面。因此,ML方法取代了统计方法,因为它解决了传统统计学无法解决的任务。
一个有趣的论点是,ML科学家和统计学家的研究文化不同。广泛的理论结果伴随着所有统计方法。例如,如果没有定理和证明,就不可能发表一篇关于新统计检验的论文。仅凭实证评估并不能解决问题。相比之下,机器学习研究人员和从业者会对一种在真实世界数据上取得良好结果的方法表现出兴趣,即使其理论可能存在差距。
4.4. 例子
最后,尽管我们可以使用 ML 和统计进行预测和推理,但它们的方法不同。ML不仅仅是改写的统计数据做错了。它采用不同的建模方法。
例如,假设数据集包含十套公寓的大小(以平方英尺为单位)和销售价格:
为了拟合线性模型,ML 科学家将集合分为训练(蓝色)和测试(红色)数据,并最大限度地减少前者的损失:
然后,将根据三个测试数据评估模型。如果误差可以忽略不计,并且与训练数据上的误差没有太大区别,那么科学家会认为它是根据公寓大小预测价格的良好模型。
相比之下,统计学家将适合整个数据集(可能获得不同的系数):
但是不会用它来预测。相反,将通过检查系数的显著性来检验大小影响销售价格的假设。
这个例子可能在实践中对这两个学科提出了过于简单化的观点,但说明了方法之间的差异。
5. 数据挖掘
数据挖掘源于商业应用中的数据库管理。其目标是发现大数据中的有价值的模式,并为业务利益相关者提供可操作的信息。让我们用一个例子来说明这一点。
5.1. 例子
假设一家在线新闻机构想要找到其受众来自哪里。它需要这些信息来专注于报道其大多数活跃订阅者居住的地区的故事。该网站只关心那些已经订阅了它的提要并经常阅读新闻的人,而不是那些将来可能这样做的人或被动订阅者。
这与我们在统计中所做的相反,通过推理和机器学习通过预测。统计学家将定义一个关于居住在预定义区域集中的订户比例的假设。然后,他将选择适当的统计检验并检查数据是否符合其假设。否则,统计学家将不会继续前进,告知我们数据不允许进行有效推断。否则,他将运行测试并告诉我们它是否拒绝或未能拒绝假设。
但是,统计假设是关于总体的,而不是样本。即使我们的统计学家有什么要告诉我们的,那也是关于像我们当前活跃订阅者这样的人,即我们感兴趣的潜在受众。但是,这不是我们需要的信息,因为我们希望为当前读者量身定制编辑政策。
同样,ML模型可以预测每个区域的随机人员有兴趣订阅该网站的概率。同样,虽然很高兴拥有,但模型不是我们想要的。正如我们的例子所示,挖掘通常是关于深入了解手头的数据集,忽略其中的所有内容。换句话说,数据挖掘者在给定数据中找到模式,而不是我们从中抽样数据集的人口。事实上,在大多数情况下,数据包含整个感兴趣的人群。
5.2. 数据挖掘不就是应用统计和机器学习吗?
与ML和统计学一样,有些人会争辩说数据挖掘只是应用统计或应用ML(特别是无监督)。毕竟,这就是它使用的工具的起源。那么,如果只是应用其他领域的方法,我们可以考虑挖掘一门独立的学科吗?许多统计学家和机器学习研究人员会争辩说我们不应该这样做。但是,许多数据挖掘者反对这种观点,强调了我们上面讨论的差异。
此外,数据挖掘将结果优先于方法。启发式方法是可以接受的,只要它们为业务提供价值,即使它们在数学上可能没有充分的基础。此外,矿工有时会专门为手头的数据设计一种分析方法,而不会为它对其他数据集的适用性而烦恼。
最后,重点是探索数据。因此,采矿是一项具有特定目标的探索性活动。尽管 ML 和统计信息进行探索性分析,但它们侧重于检查假设,而不是提取关键业务信息。
6. 结论
在本文中,我们讨论了人工智能、机器学习、统计学和数据挖掘。关于这四个领域之间的界限没有达成共识。特别是,有些人认为后三个是同一学科的变体。然而,尽管界限模糊,但我们可以发现它们的差异。