有效的数据表示

有效的数据表示

你发现以下哪个数字顺序最容易记忆?

  • 40,27,25,36,81,57,10,73,19,68

  • 50,48,46,44,42,40,38,36,34,32,30,28,26,24,22,20,18,16,14

乍一看,第一个序列似乎应该更容易些,因为它要短得多。但是,如果仔细看第二个序列,会发现它只是从50到14的偶数列表。一旦注意到这个模型,第二个序列就比第一个序列更容易记忆,因为只需要记住模式(偶数递减)以及开始和结束的数字(即50和14)。如果可以快速轻松地记住很长的序列们就不会关心第二个序列中是否存在模式。会认真得记忆每个数字,就是这样。很难记住长序列这一事实使得模式识别变得很有用。这能澄清为什么在训练过程中约束自动编码器会促使其发现和利用数据中的模式

记忆、感知和模式匹配之间的关系在1970年代初期由Willian Chase和Herbert Simon进行了著名的研究。他们观察到,国际象棋专家可以通过观察棋盘上的位置只需要5秒钟就能记住所有棋子的位置,这是大多数人无法实现的任务。但是,只有把棋子放在真实位置(根据具体棋局)时才是这种情况,而不是将棋子随机放置。国际象棋专家的记忆力并不比你我的好。多亏了他们在象棋中的经验,他们才更容易看到国际象棋的模式。注意到模式可以帮助他们有效地存储信息。

就像这个记忆实验中的国际棋手一样,自动编码器会查看输入,将其转换为有效的潜在特征,然后输出一些看起来非常接近输出的东西。自动编码器通常由两部分组成:将输入转换为潜在特征的编码器(或识别网络),然后是将内部表征转化为输出的解码器(或生成网络)

自动编码器通常具有多层感知器(MLP)相同的架构,除了输出层中的神经元数量必须等于输入的数量。输出通常称为重构,因为自动编码器会试图重构输入,并且成本函数包含一个重构损失,当重构与输入不同时会惩罚这个模型

因为内部表征的维度比输入数据的维度低,所以自动编码器被认为是不完整的。不完整的自动编码器无法将其输入简单地复制到编码中,必须找到一种输出其输入副本的方法。它被迫学习输入数据中最重要的特征(并删除不重要的特征)

posted @ 2021-12-30 21:34  里列昂遗失的记事本  阅读(57)  评论(0编辑  收藏  举报