维度的诅咒——加勒比海盗！

让我们了解维度：

Photo by 谢尔盖·安东诺夫 on 不飞溅

这是一个魔方。这是 3 个维度（它有长度、宽度和高度）。

[

四维空间 - 维基百科

en.wikipedia.org

这是一个 4-D Tesseract 超立方体，仅添加一个额外的维度本身就很难理解。

所以有什么问题？

事实证明，许多事物在高维空间中的行为非常不同。不仅如此，更高维度的空间如此之大，如果你在超立方体中选择任意两点，它们之间的平均距离将远高于二维正方形中两点之间的平均距离。

为简化起见，更多维度 = 2 点之间的更多平均距离。

将此与数据科学联系起来：

我们知道，要预测一个测试实例，我们需要几个训练实例，每个训练实例都有几个特征。

示例：要预测具有船龄、长度和排水量特征的二手船的价格，我们需要将线性回归应用于具有船龄、长度、排水量和相关变量价格的训练实例的模型。

在这里，您有 3 个特征（年龄、长度、位移）模型。与您的 3-D 立方体非常相似。用更少的特征训练你的模型真的很容易，你的预测很可能是准确的。

如果您有一个具有 100 个特征的训练实例，它类似于 100 维图。根据我们的上述理论，训练实例和测试实例之间的距离将会很大。这将使预测变得困难，并且不太可靠。

这就是维度的诅咒。

就像我们的加勒比海盗电影一样，只有一种方法可以解除诅咒。

通过增加训练实例的数量以匹配特征数量的密度或减少特征的数量。
剧透警报： 减少特征称为降维！

“不幸的是，对于一个只有 100 个特征的模型，我们需要比可观察宇宙中的原子更多的训练实例。” — 使用 Scikit Learn、Keras 和 Tensor Flow 进行机器学习。

所以我们唯一的方法是应用降维！

稍后会详细介绍降维✌️

posted @ 2022-08-30 18:10 哈哈哈来了啊啊啊阅读(86) 评论(0) 收藏举报

刷新页面返回顶部