RBM
RBM
基础知识
马尔可夫链
随机过程即状态变化路径,可以表示为 (x0,x1,...)。还有:高斯过程,泊松过程,自回归模型,移动平均模型...
马尔可夫性质
在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的。可以用一个自反有向完全图表示,图中所有路径皆有转移概率。每一个状态转移的下一点位置由概率决定,每一个状态转移概率之和为1。
马尔可夫链
具有马尔可夫性质的随机过程为马尔可夫链。
n次转移矩阵
n次转移矩阵 = \(P^n\),意义在于表示此随机过程中从某一状态出发走n步到其他状态的概率。
- 遍历性:只要转移矩阵每个元素大于0,\(\lim_{n\rightarrow \infty} P^n\)收敛,且结果为一次转移矩阵的特征向量转置集
因为走n步后分布平稳,所以可以使用采样的方式求n次转移矩阵。采样一般分为3个阶段:初始化、burn-in(随机产生不记录)、sampling(随机产生并记录)[可以间隔采样]
细致平稳条件
即马尔可夫链收敛条件。P为转移矩阵,\(\pi(x)\)为分布
一般马尔科夫链未收敛,要使其收敛,则可以改变其转移矩阵为Q,有
其中\(\alpha\)为接受概率,于是
分布抽样
设均匀分布随机数为U,则
Box-Muller变换
可以通过U生成标准正态分布
CDF变换
Metropolis 采样算法
从一个复杂的目标分布获取近似的样本的采样算法
MCMC采样算法
目的:以任意状态为始点采样转移序列,p和q已知
步骤:
- 初始化状态 x0
- 随着时间递增,循环采样:
- y ~ q(x|xt) —— 以分布q找下一个状态y
- u ~ Uniform[0,1] —— 均匀分布采样u
- u < \(\alpha\)(xt , y) = p(y) q(xt|y) —— 考虑是否接受转移
- TRUE:xt+1 = y
- FALSE:xt+1 = xt
存在的问题:\(\alpha\)值可能会非常小,会导致很难跳转
Metropolis-Hasting 采样算法
MCMC的改进版,使
也就是两边同比例放大,只是概率不能大于1,所以要min
Gibbs 采样算法
发现
然后居然是细致平稳条件!最终步骤很完美:
- 初始化状态 x0,y0
- 随着时间递增,循环采样:
- yt+1 ~ q(y|xt)
- xt+1 ~ q(x|yt)
转移样本序列 (x0, y0)、(x0, y1)、(x1, y1)、(x1, y2) ...
然后推广到n维:
- 初始化状态 x0,x1,x2,...
- 随着时间递增,循环采样:
- x0 ~ q(x0|x1, x2, ...)
- x1 ~ q(x1|x0, x2, ...)
- x2 ~ q(x2|x0, x1, ...)
- ......
与Boilzmann 机的联系
Boilzmann 机能量有
某一节点位于某一状态的概率(玻尔兹曼分布)
我们有当其他节点不改变状态时单节点状态分布概率(A:j节点状态分布,B:除了此节点以外的状态分布)
也可以表示成
由此概率决定状态转化,而前面的抽样方法将用于确定\(P(A,B)\),运行长时间后即可达到热平衡。
Boilzmann 机学习规则
基础函数
能量函数
状态概率分布
sigmoid激活函数
概率分布推导
激活函数反向推导验证
所以只需要确定边的权重,偏置,激活函数选取Sigmoid,就符合上述能量公式。所以分隔值选取0.5。
似然函数求取
因为分布为乘积形式,所以选取对数似然函数
然后代入求w和b的导数,利用随机梯度上升法优化。有
学习目标
偏导求解
中括号表示在此分布下的期望
其中
结构
计算图
![][fig1]
迭代过程
CD学习算法
- 中文名:基于对比散度的快速学习算法
- 优点:不需要经由Gibbs采样计算期望,一步计算完成
更新法则
其中\(\langle *\rangle_{recon}\)表示一次重构可见层后的分布
学习步骤
(注:以下直接使用概率运算是因为其属于0-1分布,期望等于概率)
- 输入:一个训练样本\(x_0\),隐层单元个数m,学习率\(\epsilon\),最大训练周期T
- 输出:连接权重矩阵W,可见层的偏置向量a,隐层的偏置向量b
- 训练:
- 初始化
- \(v_1=x_0\)
- \(w,i,j\) 随机取较小数值
- \(1:T\rightarrow t\),循环
- \(1:m\rightarrow j\),循环遍历隐层单元
- \(P(h_{1j}|v_1)=\sigma(b_j+\sum_iv_{1i}W_{ij})\)
- 抽取 \(h_{1j}\in {0,1}\)
- \(1:n\rightarrow i\),循环遍历隐层单元
- \(P(v_{2j}|h_1)=\sigma(a_i+\sum_jW_{ij}h_{1j})\)
- 抽取 \(v_{2i}\in {0,1}\)
- \(1:m\rightarrow j\),循环遍历隐层单元
- \(P(h_{2j}|v_2)=\sigma(b_j+\sum_iv_{2i}W_{ij})\)
- 更新:
- \(W\leftarrow W+\epsilon\ [P(h_1=1|v_1)v^T_1-P(h_2=1|v_1)v^T_1]\)
- \(a\leftarrow a+\epsilon\ [v_1-v_2]\)
- \(b\leftarrow b+\epsilon\ [P(h_1=1|v_1)-P(h_2=1|v_2)]\)
- \(1:m\rightarrow j\),循环遍历隐层单元
- 初始化
优化设置
训练方式
- 小批量梯度下降(最优)
- 容量:几十 ~ 几百
- 随机梯度下降
- 梯度下降
学习率
一般设置为权重的\(10^{-3}\)
动量学习率
k为动量项学习率,开始时昬 k可设为0.5 在重构误差处于平稳增加状态时,k可取为0.9。
权重和偏置的初始值
权重 = N(0, 0.01)
b = 0
a = log [ pi / (1 - pi) ],pi 为训练样本中第 i 个特征处于激活状态所占比率
权衰减
避免过拟合,设置罚函数如下,系数取值可取0.01~0.001。
隐单元个数
可以先估算一下用一个好的模型描述一个数据所需的比特数,用其乘上训练集容量(即总描述所需比特数)。基于所得的数,选择比其低一个数量级的值作为隐元个数。如果训练数据是高度冗余的(比如数据集容量非常大),则可以使用更少一些的隐元。
©️ Copyrights.RSMX.GUILIN.2020-05-17
[fig1]: