模仿学习 Imitation Learning

在传统的强化学习任务中，通常通过计算累积奖赏来学习最优策略(policy)，这种方式简单直接，而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策(sequential decision)中，学习器不能频繁地得到奖励，且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。而模仿学习(Imitation Learning)的方法经过多年的发展，已经能够很好地解决多步决策问题，在机器人、 NLP 等领域也有很多的应用。