跟着GPT学习拉格朗日对偶性
上面的例子严格说来,还需要去验证下x>=2的kkt条件是否满足,见文章最后的说明。
再来一个例子:
拉格朗日对偶性如何通俗理解呢?有没有实际例子可以说明下?
拉格朗日对偶性是优化理论中的一个重要概念,尤其在机器学习和运筹学中经常遇到。在对偶性中,我们从一个优化问题(称为原问题)中衍生出另一个相关的优化问题(称为对偶问题)。这两个问题之间的关系提供了许多有用的性质和洞察力。
通俗地说,你可以把原问题和对偶问题想象成是两个视角或两个方法来看待同一个情境。
这里给一个比较直观的例子来帮助理解:
想象一个背包问题。你有一个背包,它能够承受有限的重量,而你有一些物品,每个都有不同的重量和价值。你的任务是确定如何选择物品放入背包,以便最大化背包中的总价值,同时不超过背包的重量限制。
原问题: 你直接思考:“我应该选择哪些物品放入背包,使得背包的价值最大化,同时不超过重量限制?”你会考虑每个物品,思考是否放入背包。
对偶问题: 现在换个思路。为背包的重量限制设定一个“价格”或“惩罚”(想象超过限制会有一定的罚款)。对于这个给定的“惩罚”,你再次思考如何选择物品以最大化你的总收益(物品的价值减去可能的罚款)。当你调整这个“惩罚”时,你会得到不同的最佳选择。
这个对偶问题实际上是在考虑:“如果我超过背包的限制,我愿意支付多少‘代价’?”对于不同的代价,你可能会选择不同的物品组合。
这种对偶的关系在优化问题中非常有用,因为有时原问题很难解决,而对偶问题可能更容易解决。或者,对偶问题可能提供了原问题解的有用信息。
示例:
更多例子见:拉格朗日和kkt公式的应用示例
好了,有了上面的知识储备!我们再来看svm的公式推导就非常顺利了!
详见这个文章:https://zhuanlan.zhihu.com/p/35755150?utm_id=0
针对该文章,补充几点:
那最佳超平面长什么样的呢?我们认为最佳超平面必须具有更好的泛化能力,对噪声更为不敏感,即更好的鲁棒性。从几何角度来说,两样本到超平面的间隔越大,抗干扰能力越强,所以最佳超平面就是以最大间隔把样本分开的超平面,也称之为最大间隔超平面。间隔是两侧样本到超平面的距离之和,即margin = d1+d2,多个样本就有多个间隔值,那是不是每个间隔对超平面的贡献都一样的呢?答案是否定的,离超平面越近的样本越容易划分错误,因此离超平面越近的样本对超平面的影响越大,所以为了找到最大间隔超平面,首先要找到两侧离超平面最近的样本点,求出其到超平面的距离之和,即margin = min(d1+d2)。然后不同超平面,margin不同,为了找到最佳超平面,我们需要最大化margin,可以理解为泛化能力最大的那个超平面,即max margin。