元学习试图根据性能做出响应,从而对模型结构以及参数空间进行修改,在新环境中利用之前积累的经验。
人类大脑针对某项任务的工具和能力是什么?元学习研究者提出两种理论与这些工具相关:
1、学习的先验:人类可以利用过去任务中学到的信息,很快的学会新任务。例如物理知识或掉血奖励等;
2、学习的策略:人类收集到的除了对象级信息,还生成了一种神经结构,使输入输出转化或策略问题的效率更高。
神经网络元参数排序,从具体到抽象如下:
1、hyperparameterized gradient descent. e.g. MAML 和 Reptile
2、优化梯度下降操作的参数,包括:学习速率、动量和自适应学习率算法的权重。e.g. Learning to Learn By Gradient Descent by Gradient Descent
3、学习内部循环优化器的网络,本身也是一个网络,使用梯度下降更新优化器网络参数使其在新任务中表现更好。e.g. RL² 和 A Simple Neural Attentive Meta Learner
参考文献:
努力成长为参天大树。