Discovering symbolic policies with deep reinforcement learning
发表时间:2021(ICML 2021)
文章要点:这篇文章想说神经网络的解释性太差,用简单的符号式子来表示策略具有更好的解释性,而且性能也不错。这里符号式子就是一个简单的函数。作者就提出了一个叫deep symbolic policy的算法来搜索symbolic policies。算法先有一个Policy Generator模块,来构建一个具体的策略表达式,然后有一个Policy Evaluator模块,就是在环境里测试这个policy,得到reward。这个reward再用来更新符号policy。
具体的,Policy Generator就是一个树结构,通过选择token构建出一个具体的函数形式。这里token设置为
运算符,某个维度的状态,以及常数。树的叶子结点就是状态和常数,中间节点就是运算符,这样就构建了一个二叉树,然后这个二叉树通过depth-first, then left-to-right的方式就可以得到一个具体的式子了。具体去优化这个符号表示的时候,是用自回归RNN去做的(optimize distributions over sequences using an autoregressive recurrent neural network (RNN))。具体如总的流程图所示,把符号一个一个输入到RNN网络中,得到下一个符号,最终得到一个policy。这里我感觉不说这个树结构也是没问题的,毕竟在优化过程中根本用不到这个结构。然后就用很常见的policy gradient去优化这个RNN。作者还非要说一句用的是risk-seeking policy gradients
其实就是把前百分之多少的好的样本拿来做policy gradient。然后就结束了。
注意这里只能做到优化一个维度的动作,如果要做到高维的动作空间,这个计算量会指数增加。作者为了解决这个问题,搞了一个叫anchor model的model distillation方式。具体来说就是先在这个问题上训练一个神经网络的policy。然后训练符号策略的时候,一个维度一个维度的训练,其他维度的动作先用这个神经网络的policy直接输出,这样一个维度一个维度的进行搜索,最终把所有维度都搜索完。
最后搜出来了下面这些式子
总结:感觉就是把网络表示的policy搞到一个简单的函数形式上,然后就说这个简单的函数效果足够好了,而且解释性更好。感觉没啥用啊。而且针对函数形式,需要具体设计,控制搜索范围,还要定组合规则,比如exp外面不能套log之类的。最后为了提高效率,还搞了个hierarchical entropy regularize和soft length prior的trick,感觉并不好用。
疑问:就算是弄成了符号表达,知道了具体的形式,也只是变成了一个比神经网络更简单的函数,感觉可解释性还是不强啊?
做到高维的时候还借助的神经网络的效果,这个就算效果超过了神经网络,也说明不了什么问题啊?