原始问题对偶化

本篇假设已经了解Lagrange函数,对偶的基本原理,针对的问题是对没有约束的函数f(w)如何变换为对偶,以及对参考资料[1][2]一些推到的补充。

问题

一般的统计机器学习目标函数可以通常为

(1)minwf(Xw)+r(w)

其中X代表数据,w代表要学习的参数,f(Xw)表示某种误差度量,r(w)表示对w的正则项。

现在要对这个问题做对偶,为什么要做对偶在参考资料里也给出了几种情况,这里罗列如下:

  • 参数w的维度小于数据维度,求解方便
  • 可以分布式

公式 1没有约束信息,通过引入

λ=Xw

来制造约束。引入约束后,更新如下

minw,λf(λ)+r(w)s.t.λ=Xw

这样就可以构造Lagrange函数,

(2)minw,λf(λ)+r(w)+α(Xwλ)

利用共轭函数,上式整理为

minλαλ+f(λ)+minwαXw+r(w)supλ(αλf(λ))supw(αXwr(w))f(α)r(αW)

最后的目标是要极大化Lagrange函数,即公式 2,也就是最小化dual gap。

maxf(α)r(αW)minf(α)+r(αW)

根据αX=r(w)原始变量w和对偶变量间的关系如下

w=r(αX)

对于参考资料[1]中共轭函数的例子,

J6jBk.jpg

对Hinge和Square loss给出具体的推到

  • Hinge loss

    supzuzmax{0,1yiz}

    分析max{0,1yiz}的取值情况(需要注意这时候的|yi|=1),当yiz>1时,即|z|>1|y|时,上式变成supzuz而且此时z还是一个无界的,因此极限不存在。当yiz1时,即|z|1|y|时,上式变为supzuz1+yiz,此时为了取极大值yiz=1,因此变成supzuz,因为z的取值范围,最后变成u1|y|,注意y=±1,因此最终的结果是u,这个和图片中的结果有点不符,我也不太确信。

  • Square loss

    supzuzyiz22

    对于Square loss直接展开,然后求极值就可以得到yiu+u24的结果。

例子

例子来源于[2],primal问题是

minwRd[λ2w22+1ni=1nli(wTxi)]

根据公式 2的变换,得到

minw,ui[λ2w22+1ni=1nli(ui)]1ninαi(uiwTxi)

上式中的花括号的地方添加的1n是为了更方便合并li(ui),αiui。对于正则项部分

(3)maxwwT[1nxi]α2λw22(4)12λ[1nxi]α22

从而(3)到(4)的变换使用的就是square loss的共轭函数,为了简便,可以令A=1λn[1nxi],最终化简为

λ2Aα22

关于li的部分就不进一步说明了。参数wα的关系,通过(3)到(4)中对w求极值可以得到

w=Aα

参考资料

  1. 知乎:淋蒙, 凸优化中的对偶问题与共轭函数
  1. 知乎:淋蒙, 从单机优化到分布式优化:从Coordiante Ascent到MOCHA
posted @   Neo_DH  阅读(466)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
历史上的今天:
2018-04-26 coursera—吴恩达Machine Learning笔记(1-3周)
点击右上角即可分享
微信分享提示