Fork me on GitHub

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Gumbel-Softmax

Gumbel-Softmax是一种用于对离散分布进行采样的技术,通常应用于生成模型和强化学习中。下面是对Gumbel-Softmax的分析:

Gumbel分布
Gumbel分布是一种连续概率分布,它的概率密度函数可以用以下公式表示:

f(x)=1βexμβeexμβ

其中,μ是位置参数,β是尺度参数。Gumbel分布通常用于描述极值问题,例如极值分布、排序问题等。

Gumbel-Max Trick
Gumbel-Max Trick是一种用于对离散分布进行采样的技巧。它的基本思想是:将概率分布转化为Gumbel分布,再进行采样。
具体地,对于一个离散分布p(x),我们可以先将其取对数,再加上从Gumbel分布中采样得到的随机噪声g,得到一个随机变量y

y=argmaxx(logp(x)+gx)

其中,gx表示从Gumbel分布中采样得到的随机噪声,gx=log(logu),其中u是一个[0, 1]之间的均匀分布随机数。

Gumbel-Softmax
Gumbel-Softmax是一种对Gumbel-Max Trick的扩展,它将Gumbel分布和Softmax函数结合起来,得到一个连续可导的近似离散分布采样方法。
具体地,对于一个离散分布p(x),我们可以先将其转化为一个one-hot向量形式,再加上从Gumbel分布中采样得到的随机噪声g,得到一个连续向量y

y=softmax(logp(x)+gτ)

其中,τ是一个温度参数,控制了采样的随机性。当τ趋近于0时,Gumbel-Softmax退化为Gumbel-Max Trick。

Gumbel-Softmax应用
Gumbel-Softmax通常应用于生成模型和强化学习中。在生成模型中,Gumbel-Softmax可以用于对离散分布进行采样,例如对文本生成模型中的单词进行采样;在强化学习中,Gumbel-Softmax可以用于对动作空间进行采样,例如深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法中的行动选择。

posted @   365/24/60  阅读(1042)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
历史上的今天:
2021-03-30 React学习笔记
2020-03-30 ubuntu基于VSCode的C++编程语言的构建调试环境搭建指南
点击右上角即可分享
微信分享提示