Embodied Intelligence via Learning and Evolution
发表时间:2021
文章要点:这篇文章主要想说,设计了一个进化强化的框架Deep Evolutionary Reinforcement Learning (DERL)来模拟人类进化的方式,然后得出结论:复杂的环境会产生能力更强的morphology(形态学,这个词有点玄学了,其实就是可以产生不同结构的智能体就完事了);进化会选择更好的morphology来继续进化,进化过程中产生了鲍德温效应(Baldwin effect: 没有任何基因信息基础的人类行为方式和习惯,经过许多代人的传播,最终进化为具有基因信息基础的行为习惯的现象);这个过程稳定且高效(physically stable and energy efficient)。具体算法方面,就是并行训练一堆智能体做进化(tournament based evolution),进化里面套强化(PPO)。然后进化主要是改变智能体morphology:增加或者减少肢体;修正肢体的物理属性,比如长度和密度;修正关节的性质,比如自由度,旋转角度限制和齿轮齿数比((1) either shrink or grow the kinematic tree by growing or deleting limbs (Fig. 1d); (2) modify the physical properties of existing limbs, like their lengths and densities (Fig. 1d); (3) modify the properties of joints between limbs, including degrees of freedom (DoF), angular limits of rotation, and gear ratios.)。结论是这个进化过程可以有效地产生策略完成任务,并且具有多样性。而且在学到任务的同时,对学习其他任务有加速效果,并且之前的任务越难,后面学其他任务就越快。
总结:文章说a novel computational framework,感觉并不novel啊,都快烂大街了。Alphastar这类算法不都是进化加强化吗。然后又扯了很多什么进化论的东西,没啥意义,最近好像还有篇训练足球的,也是这个路子,也扯了很多进化,行为学,宏观微观控制的东西,感觉比这个更复杂更全面(From Motor Control to Team Play in Simulated Humanoid Football)。感觉这篇文章水的过分了。
疑问:无。