维度的诅咒——加勒比海盗!

维度的诅咒——加勒比海盗!

让我们了解维度:

Photo by 谢尔盖·安东诺夫 on 不飞溅

这是一个魔方。这是 3 个维度(它有长度、宽度和高度)。

[

四维空间 - 维基百科

四维空间 (4D) 是三维或 3D 空间概念的数学扩展......

en.wikipedia.org

](https://en.wikipedia.org/wiki/Four-dimensional_space)

这是一个 4-D Tesseract 超立方体,仅添加一个额外的维度本身就很难理解。

所以有什么问题?

事实证明,许多事物在高维空间中的行为非常不同。不仅如此,更高维度的空间如此之大,如果你在超立方体中选择任意两点,它们之间的平均距离将远高于二维正方形中两点之间的平均距离。

为简化起见,更多维度 = 2 点之间的更多平均距离。

将此与数据科学联系起来:

我们知道,要预测一个测试实例,我们需要几个训练实例,每个训练实例都有几个特征。

示例:要预测具有船龄、长度和排水量特征的二手船的价格,我们需要将线性回归应用于具有船龄、长度、排水量和相关变量价格的训练实例的模型。

在这里,您有 3 个特征(年龄、长度、位移)模型。与您的 3-D 立方体非常相似。用更少的特征训练你的模型真的很容易,你的预测很可能是准确的。

如果您有一个具有 100 个特征的训练实例,它类似于 100 维图。根据我们的上述理论,训练实例和测试实例之间的距离将会很大。这将使预测变得困难,并且不太可靠。

这就是维度的诅咒。

就像我们的加勒比海盗电影一样,只有一种方法可以解除诅咒。

通过增加训练实例的数量以匹配特征数量的密度或减少特征的数量。
剧透警报: 减少特征称为降维!

“不幸的是,对于一个只有 100 个特征的模型,我们需要比可观察宇宙中的原子更多的训练实例。” — 使用 Scikit Learn、Keras 和 Tensor Flow 进行机器学习。

所以我们唯一的方法是应用降维!

稍后会详细介绍降维✌️

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/1856/09363018

posted @ 2022-08-30 18:10  哈哈哈来了啊啊啊  阅读(38)  评论(0编辑  收藏  举报