维度的诅咒——加勒比海盗!
维度的诅咒——加勒比海盗!
让我们了解维度:
这是一个魔方。这是 3 个维度(它有长度、宽度和高度)。
[
四维空间 - 维基百科
四维空间 (4D) 是三维或 3D 空间概念的数学扩展......
en.wikipedia.org
](https://en.wikipedia.org/wiki/Four-dimensional_space)
这是一个 4-D Tesseract 超立方体,仅添加一个额外的维度本身就很难理解。
所以有什么问题?
事实证明,许多事物在高维空间中的行为非常不同。不仅如此,更高维度的空间如此之大,如果你在超立方体中选择任意两点,它们之间的平均距离将远高于二维正方形中两点之间的平均距离。
为简化起见,更多维度 = 2 点之间的更多平均距离。
将此与数据科学联系起来:
我们知道,要预测一个测试实例,我们需要几个训练实例,每个训练实例都有几个特征。
示例:要预测具有船龄、长度和排水量特征的二手船的价格,我们需要将线性回归应用于具有船龄、长度、排水量和相关变量价格的训练实例的模型。
在这里,您有 3 个特征(年龄、长度、位移)模型。与您的 3-D 立方体非常相似。用更少的特征训练你的模型真的很容易,你的预测很可能是准确的。
如果您有一个具有 100 个特征的训练实例,它类似于 100 维图。根据我们的上述理论,训练实例和测试实例之间的距离将会很大。这将使预测变得困难,并且不太可靠。
这就是维度的诅咒。
就像我们的加勒比海盗电影一样,只有一种方法可以解除诅咒。
通过增加训练实例的数量以匹配特征数量的密度或减少特征的数量。
剧透警报: 减少特征称为降维!
“不幸的是,对于一个只有 100 个特征的模型,我们需要比可观察宇宙中的原子更多的训练实例。” — 使用 Scikit Learn、Keras 和 Tensor Flow 进行机器学习。
所以我们唯一的方法是应用降维!
稍后会详细介绍降维✌️
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明