natural gradient笔记
自然梯度和梯度的区别
自然梯度是在梯度前左乘某正定矩阵
自然梯度和梯度的区别在于使用的距离度量空间不同,梯度使用的是欧几里得空间,而自然梯度使用的是黎曼空间,即
根据梯度的定义,即在给定
应用拉格朗日对偶可以得到
上式中,
Fisher矩阵和自然梯度
Fisher矩阵的定义如下
自然梯度中的
上式中
Fisher矩阵和KL散度
对于一个监督学习算法,我们要得到
在实际的训练过程中,我们通常是无法得到输入
上式也可以看作最小化负对数似然。
假如损失函数
通过对于KL散度的泰勒展开,我们可以得到Fisher矩阵为下式的近似
因此Fisher矩阵是对两个分布local的近似(一定要注意是在local情况下)
根据下式定理
即在半正定矩阵
自然梯度和二阶优化的关系
Fisher矩阵和Hessian矩阵
如果目标函数
而Hessian矩阵表达式为
可以看到只是两者是在不同分布下的期望,Fisher矩阵是在预测器给定
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异