【笔记】论文阅读 | Learning to learn using gradient descent
- 论文信息:Hochreiter S, Younger A S, Conwell P R. Learning to learn using gradient descent[C]//International Conference on Artificial Neural Networks. Springer, Berlin, Heidelberg, 2001: 87-94.
- 博文作者:Veagau
- 编辑时间:2020年01月07日
本文是2011年ICANN的会议论文,第一作者是Sepp Hochreiter,LSTM的发明者之一。在论文中作者提出采用梯度下降(gradient descent)的策略进行元学习(Learning to learn),对比以前采用进化算法进行元学习的策略相比,这种元学习策略能够适应拥有大量参数的大型模型,在后续的元学习经典模型算法中得到了广泛的采用。
传统的机器学习方法中的学习算法一般不会考虑以前的学习经验,即使这些经验能够像人类进行推理学习一样产生更好的表现,因此对于以往经验的利用的研究催生出了知识迁移(Knowledge Transfer)这一概念,而元学习(meta-learning)就可以纳入到知识迁移的范畴。广义的来讲,一个完整的元学习模型一般由两个部分组成:Meta-Learner与Learner。其中Learner(学习者)就是一般意义上的具体的机器学习任务,可以是分类任务、识别任务等等,而Meta-Learner(元学习者)则充当着指导者的作用,负责寻找适合于具体学习任务的学习算法。元学习者内部分为两个子系统:从属(subordinate)系统和监督(supervisory)系统。从属系统负责与Learner直接进行交互,向其提供合适的算法参数,而监督系统则需要忽略具体问题的细节,负责评价从属系统产生算法的优劣性,对其进行监督。整个元学习系统的结构如下所示。
本文中作者采用循环神经网络做为从属系统,采用固定的传统BPTT(随时间后向传播)学习算法作为监督系统。输入数据对为\((x_j,y_{j-1})\),其中\(x_j\) 为 \(j\) 时刻目标函数变量,\(y_{j-1}\) 为\(j-1\) 时刻目标函数对应的结果,之所以采用错位的方式进行输入,是为了让附属系统得到上一步算法的错误率,方便进行校正。由于算法的优化过程中涉及到序列模式的梯度更新(BPTT算法),所以为了防止梯度爆炸与梯度消失问题,本文中作者采用的循环神经网络为LSTM。
以前的进化算法针对的是强化学习情境,而本文提出的元学习策略是在有监督学习情境下进行的,至于在无监督以及主动学习情境下的元学习策略应该是怎样的,则值得进一步探究。