摘要:
摘要 作者认为大多数动物的行为不是聪明的学习算法——监督或者非监督——的结果,而是编码在基因组中。具体来说,动物具有高度结构化的大脑连接,使它们能够非常迅速的学习。由于连接过于复杂无法在基因组中明确指定,通过“genomic bottleneck”进行了压缩,而genomic bottleneck为 阅读全文
摘要:
文章主要问题是解决少样本学习,灵感来自actor-critic增强学习,但可以应用于增强和监督学习。核心方法是学习一个meta-critic——神经网络的行为价值函数,学习去评判解决特殊任务的actor。对于监督学习,相当于一个可训练的任务参数损失发生器。对于增强学习和监督学习,这种方法提供了一种知 阅读全文