Fork me on GitHub

【笔记】论文阅读 | Optimization as a Model for Few-Shot Learning

  • 论文信息:Ravi S, Larochelle H. Optimization as a model for few-shot learning[J]. 2016.
  • 博文作者:Veagau
  • 编辑时间:2020年01月07日

本文是2017年ICLR的会议论文,作者来自Twitter公司。在论文中作者提出了一种用于少样本领域的基于LSTM的元学习者(Meta-Learner)模型,这种模型能够直接学习用于训练另外一个学习者(Learner),如神经网络分类器,的优化算法。

少样本学习或者说元学习的关键是找到一种系统化的方法去学习在各种任务上有效的通用初始化方案,这种方案能够为基于待考虑数据上的任务提供一个良好的初始训练点,从而实现在新任务上的快速适应于收敛,即学会学习。文中提出的基于LSTM的元学习者模型,作为一个优化器的角色,能够捕获任务内的短期知识以及跨任务的长期知识,进而形成跨任务共享的基础知识,最后作用在学习者上,使其能够在每个任务上都可以快速收敛到一个较优解。

标准的深度神经网络的优化算法采用梯度下降的思想。

\[\theta_t = \theta_{t-1}-\alpha_t\nabla_{t-1}L_{t} \]

LSTM细胞状态的更新有着类似的表示形式。

\[c_t=f_t\odot c_{t-1}+i_t \odot \tilde{c_t} \]

如果令\(f_t=1,c_{t-1}=\theta_{t-1},i_t=\alpha_t,\tilde{c_t}=-\nabla_{\theta_{t-1}}L_t\),则两式等价。

基于这个思路,作者在本文中提出训练一个LSTM元学习者来学习用于训练另外一个神经网络的更新规则,为了适应任务的多样性,\(i_t, f_t\)都作为可学习的参数。

整个LSTM元学习者网络的计算示意图如下所示。

整个网络训练的目的是获得一个好的元学习者,使得其在被给定一系列的学习者在训练集上的损失以及损失梯度后,能够为学习者提供一系列对应的更新操作,使学习者在测试集上能取得较好的表现。在整个训练过程中,元学习者不断的为学习者提供参数更新指引,让其朝更快更好的方向收敛。

LSTM元学习者利用自身的状态来表示学习者参数的学习更新过程,其既要发掘学习者参数的良好初始化设定,还要学习在新的分类任务上给定少量训练样本的条件下学习者参数的良好更新策略。实验结果表明这种少样本学习策略的表现已经超过了一些基线模型,并且已经能够与基于度量学习的少样本学学习算法媲美了。

这篇论文还有不少的亮点,如对元学习任务设定的准确描述、元学习数据集的划分、在元学习情境下的批归一化处理等等,值得在以后的元学习研究中借鉴参考。

posted @ 2020-01-07 23:33  Veagau  阅读(1729)  评论(0编辑  收藏  举报