自编码器（autoencoder）

autoencoder#

简单来说 autoencoder 就是将输入复制到输出的神经网络。主要应用有降维和信息检索任务。但是为了autoencoder能学习到数据中的有效特征而不是简单的拷贝，
我们会在其中加入各种各样的约束，使得autoencoder 学习到有用的特征。
一般来讲AE有两部分组成, 假设输入为 $x$ , encoder $h = f(x)$ ; decoder $r = g(h)$ ; $f,g$ 均为确定的函数。而现在的AE也将 $f,g$ 替换为了具有随机性的映射
$f \rightarrow p_{encoder}(h|x)$ , $g\rightarrow p_{decoder}(r|h)$

AE 的发展#

AE提出的motivation用于实现dimensionality reduction和 features learning.目前，也被用于generative model(生成模型)。AE可以采用一般神经网络所采用的优化算法，例如梯度下降。

recirculation 优化算法#

AE也可以采用recirculation, 该方法对比AE在原始输入(original input)上的激活和重构(reconstructed input)输入上的激活。该方法从生物学角度有其合理性，但是在机器学习领域却很少应用。

undercomplete AE#

该方法想法较为简单，即 h 的维度要小于 x的维度，这使得AE不得不学习一些有效的特征来降低重构损失 $L(x, g(f(x)))$ , L一般的 MSE。
然而该方法却有很大的局限性，encoder, decoder模型容量不能过高。例如，encoder, decoder 模型容量过高，拟合能力过强，会使得即便将h维度设为一维，也即是一个整数，该整数，也并没有包含原始数据的有效特征，仅仅作为一种索引。模型容量过高的decoder仅仅依据该整数，就可以重构该样例。

Regularized AE#

Undercomplete AE约束了AE的encoder,decoder的模型容量，h的维度，RAE采用正则化的方式使得模型在学习重构输入的同时，还学习其他特性，例如 h的稀疏性， h导数较小，对于噪音和输入缺失的鲁棒性。

Sparse AE#

该方法主要通过对h施加约束，使得h稀疏化。来达到SAE模型不得不学习更多有效特征。优化目标如下

L (x, g (f (x))) + Ω (h)

$L(x, g(f(x))) + \Omega(h)$

正则项可能为如下形式:

Ω (h) = λ \sum_{i} | h_{i} |

$\Omega(h) = \lambda \sum_{i} |h_{i}|$

该正则并没有施加在模型参数上面，所以不能使用模型参数先验的思想进行解释。
也可以从概率角度解释上述问题。

Denoising AE#

DAE 修改了AE的优化目标

L (x, g (f (\hat{x})))

$L(x, g(f(\hat{x})))$

其中， $\hat{x}$ 为加入部分噪音的 $x$

导数正则项/Contractive autoencoder#

Contractive autoencoder

L (x, g (f (x)) + Ω (h, x), Ω (h, x) = λ \sum_{i} ‖ Δ_{x} h_{i} ‖

$L(x, g(f(x)) + \Omega(h, x), \Omega(h, x) = \lambda \sum_{i} \Vert \Delta_{x}h_{i}\Vert$

这使得 $x$ 的轻微改变不会影响 $h$

AE 表达能力与层大小和深度的关系#

即便是AE仅仅有一层隐藏层，根据通用近似定理(万能近似定理)只要有足够的隐藏单元可以任意好的拟合数据域中的恒等函数。但是单层的映射是shallow的，无法引入更多的约束，例如稀疏约束。
所以更深的AE是必要的，同前馈神经网络一致，更深的层数在表示同一个函数时可以指数级缩小计算成本和指数级减少所需的训练集数量。
deep AE的通用训练策略是训练一系列shallow的AE，然后，使用这些shallow的AE初始化 deep AE。

Stochastic encoders and decoders#

encoder: $h = p_{encoder}(h|x)$
decoder: $r = p_{decoder}(r|h)$
而隐状态模型分布 $p_{model}(h, x)$ 可以定义上述分布

p_{e n c o d e r} (h | x) = p_{m o d e l} (h | x)

$p_{encoder}(h|x) = p_{model}(h|x)$

p_{d e c o d e r} (x | h) = p_{m o d e l} (x | h)

$p_{decoder}(x|h) = p_{model}(x|h)$

$p_{encoder}, p_{decoder}$ 不是采样函数，而是引入了noise, 如同被从 $p_{encoder}, p_{decoder}$ 采样一样。

Denoising AE#

DAE 引入了两个分布
$C(\hat{x}|x)$ 定义了从原始样本生成引入噪音样本的分布
$p_{reconstruct}(\hat{x}|x)$ 定义了训练样例 $(\hat{x}, x)$ 的重构损失
DAE 训练流程:

从训练数据中采样 $x$
从 $C(\hat{x}|x)$ 生成 corrupted version of $x$
优化损失函数 $L := p_{reconstruct}(x|\hat{x}) = p_{decoder}(x|h), h=f(\hat{x})$
优化目标可以总结为如下形式:

- E_{x \sim {\hat{p}}_{d a t a} (x)} E_{\hat{x} \sim C (\hat{x} | x)} l o g p_{d e c o d e r} (x | h = f (\hat{x}))

$-\mathbb{E}_{x \sim \hat{p}_{data}(x)}\mathbb{E}_{\hat{x}\sim C(\hat{x}|x)} log p_{decoder}(x|h=f(\hat{x}))$

作者：lif323

出处：https://www.cnblogs.com/lif323/p/15944523.html

版权：本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

欢迎与作者讨论

posted @ 2022-02-28 10:29 lif323 阅读(523) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· VAE 学习笔记

· 可解释机器学习（李宏毅）学习笔记

· AE(AutoEncoder) 学习笔记

· autoencoders and variational autoencoders （变分自动编码器）

· 深度学习基础知识整理

公告

昵称： lif323
园龄： 7年10个月
粉丝： 2
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

Loading

lif323

自编码器（autoencoder）

autoencoder#

AE 的发展#

recirculation 优化算法#

undercomplete AE#

Regularized AE#

Sparse AE#

Denoising AE#

导数正则项/Contractive autoencoder#

AE 表达能力与层大小和深度的关系#

Stochastic encoders and decoders#

Denoising AE#

公告

随笔分类

最新评论