第十七节，受限玻尔兹曼机网络及代码实现

一网络结构
二重构
三使用 RBM 的过程
四训练 RBM
五实例代码

"受限波尔兹曼"这名字听起来就霸气，算法如其名，也挺难的。之所以难，是因为我们大部分人都没学过概率图模型，其实RBM是条件随机场的变体，所以如果学习这个算法，建议先把CRF给熟悉了，那么学起来就会轻松很多。受限玻尔兹曼机是由Geoff Hinton发明，是一种用于降维、分类、回归、协同过滤、特征学习和主题搭建的算法。RBM网络作为一种无监督学习的方法，其目的是尽可能地表达输入数据的的规则和特征。

回到顶部

一网络结构

我们首先介绍一下受限玻尔兹曼机这类神经网络，因为它相对简单具有重要的历史意义。下文将以示意图和通俗的语言解释其运作原理。

RBM是有两个层的浅层神经网络，它是组成深度置信网络的基础部件。RBM的第一个层称为可见层，又称输入层，由显元 (visible units) 组成，用于输入训练数据。第二个层是隐藏层，相应地，由隐元 (hidden units) 组成，用作特征检测器 (feature detectors)。

上图中每个圆圈都是一个与神经元相似的单元，称为节点，运算在节点中进行。一个层中的节点与另一层中的所有节点分别连接，但与同一层中的其它节点并不相连。

也就是说，层的内部不存在通信－这就是受限玻尔兹曼机被称为受限的原因。每个节点对输入进行处理和运算，判定是否继续传输输入的数据，而这种判定一开始是随机的。(“随机”（stochastic）一词在此处指与输入相乘的初始系数是随机生成的。)

每个可见节点负责处理网络需要学习的数据集中一个项目的一种低层次特征。举例来说，如果处理的是一个灰度图像的数据集，则每个可见节点将接收一张图像中每个像素的像素值。（MNIST图像有784个像素，所以处理这类图像的神经网络的一个可见层必须有784个输入节点。）

接着来看单个像素值x如何通过这一双层网络。在隐藏层的节点1中x与一个权重相乘，再与所谓的偏差相加。这两步运算的结果输入激活函数，得到节点的输出，即输入为x时通过节点的信号强度。

输出a = 激活函数f((权重w * 输入x) + 偏差b )

下面来看一个隐藏节点如何整合多项输入。每个x分别与各自的权重相乘，乘积之和再与偏差相加，其结果同样经过激活函数运算得到节点的输出值。

由于每个可见节点的输入都被传递至所有的隐藏节点，所以也可将RBM定义为一种对称二分图。

对称指每个可见节点都与所有的隐藏节点相连接（见下图）。二分指有两个部分或层，而这里的图是指代节点网络的数学名词。

在每个隐藏节点中，每一个输入x都会与其相对应的权重w相乘。也就是说，每个输入x会对应三个权重，因此总共有12个权重（4个输入节点 x 3个隐藏节点）。两层之间的权重始终都是一个行数等于输入节点数、列数等于输出节点数的矩阵。

每个隐藏节点会接收四个与对应权重相乘后的输入值。这些乘积之和与一个偏差值相加（至少能强制让一部分节点激活），其结果再经过激活运算得到每个隐藏节点的输出a。

如果这两个层属于一个深度神经网络，那么第一隐藏层的输出会成为第二隐藏层的输入，随后再通过任意数量的隐藏层，直至到达最终的分类层。（简单的前馈动作仅能让RBM节点实现自动编码器的功能。）

回到顶部

二重构

我们重点关注RBM如何在无监督情况系学习重构数据，在可见层和第一个隐藏层之间进行多次正向和反向传播，而无需加大网络的深度。

在重构阶段，第一个隐藏层的激活值成为反向传播中的输入。这些输入值与同样的权重相乘，每两个相连的节点之间各有一个权重，就像正向传播中输入x的加权运算一样。这些乘积的和再与每个可见层的偏差相加，所得结果就是重构值，亦即原始输入的近似值，这一过程可以用下图来表示：

由于RBM的权重初始化是随机的，重构值与原始输入之间的差别通常很大。可以将r值与输入之差视为重构误差，此误差值随后经由反向传播来修正RBM的权重，如此不断的反复，直至误差达到最小。

RBM在正向传递中使用输入值来预测节点的激活值，即输入为x时输出a的概率：p(a|x:w)。
但在反向传播时，激活值成为输入，而输出的是对于原始数据的重构值，或者说猜测值，此时RBM则是在尝试估计激活值为a时输入为x的概率，激活值得加权系数与正向传播中的权重相同。第二个阶段可以表示为：p(x|a:w)。

上述两种预测值相结合，可以得到输入x和激活值a的联合概率分布，即p(x,a)。

重构与回归，分类运算不同，回归运算根据需要输入值估计一个连续值，分类运算时猜测应当为一个特定的输入样例添加哪种具体的标签。而重构则是在猜测原始输入的概率分布，即同时预测许多不同的点的值，这被称为生成学习，必须和分类器所进行的判别学习区分开来，后者是将输入值映射至标签，用直线将数据划分为不同的组。

试想输入数据和重构数据是形状不同的常态曲线，两者仅有部分重叠。RBM用Kullback Leibler来衡量预测的概率分布与输入值的基准分布之间的距离。

KL散度衡量两条曲线下方不重叠(即散度)的面积，而RBM的优化算法会尝试将这些离散部分的面积最小化，使共用权重在与第一层的激活值相乘后，可以得到与原始输入高度近似的结果。下图左半边是一组原始输入的概率分布曲线ρ，与之并列的是重构值的概率分布曲线q，右半边的图则显示了两条曲线之间的差异。

RBM根据权重产生的误差反复调整权重，以此学习估计原始数据的近似值。可以说权重会慢慢开始反映出输入的结构，而这种结构被编码为第一个隐藏层的激活值。整个学习过程看上去像是两条概率分布曲线在逐步重合。

亲爱的读者和支持者们，自动博客加入了打赏功能，陆陆续续收到了各位老铁的打赏。在此，我想由衷地感谢每一位对我们博客的支持和打赏。你们的慷慨与支持，是我们前行的动力与源泉。

日期	姓名	金额
2023-09-06	*源	19
2023-09-11	*朝科	88
2023-09-21	*号	5
2023-09-16	*真	60
2023-10-26	*通	9.9
2023-11-04	*慎	0.66
2023-11-24	*恩	0.01
2023-12-30	I*B	1
2024-01-28	*兴	20
2024-02-01	QYing	20
2024-02-11	*督	6
2024-02-18	一*x	1
2024-02-20	c*l	18.88
2024-01-01	*I	5
2024-04-08	*程	150
2024-04-18	*超	20
2024-04-26	.*V	30
2024-05-08	D*W	5
2024-05-29	*辉	20
2024-05-30	*雄	10
2024-06-08	*:	10
2024-06-23	小狮子	666
2024-06-28	*s	6.66
2024-06-29	*炼	1
2024-06-30	*!	1
2024-07-08	*方	20
2024-07-18	A*1	6.66
2024-07-31	*北	12
2024-08-13	*基	1
2024-08-23	n*s	2
2024-09-02	*源	50
2024-09-04	*J	2
2024-09-06	*强	8.8
2024-09-09	*波	1
2024-09-10	*口	1
2024-09-10	*波	1
2024-09-12	*波	10
2024-09-18	*明	1.68
2024-09-26	B*h	10
2024-09-30	岁	10
2024-10-02	M*i	1
2024-10-14	*朋	10
2024-10-22	*海	10
2024-10-23	*南	10
2024-10-26	*节	6.66
2024-10-27	*o	5
2024-10-28	W*F	6.66
2024-10-29	R*n	6.66
2024-11-02	*球	6
2024-11-021	*鑫	6.66
2024-11-25	*沙	5
2024-11-29	C*n	2.88