Value Prediction Network


发表时间:2017(NIPS 2017)
文章要点:这篇文章提出了一个叫Value Prediction Network (VPN)的网络结构用来预测未来的value,而不是未来的观测,然后来做model based RL。虽然文章强调说plan without predicting future observations,但实际上其实也用了abstract的观测来做planning。网络具体包括四部分

Encoding就是把observation变成abstract state,value用来预测value,outcome用来预测reward和discount,transition用来做abstract state的转移。这个网络可以只训练一步的transition,也可以把abstract state再输入进去,这样就相当于做了多步的transition。训练loss就是多步,多个目标合起来训练


然后RL部分就是训的Q value

这里的target value就是通过planning的方式得到的。整个流程为

总结:感觉其实还是去学一个world model,没有什么区别。可能这篇文章的时间比较早吧。
疑问:里面这个Q value的更新方式还挺奇特的,有点像一个平均,但是不知道为啥要这么做。

posted @ 2021-12-21 11:10  initial_h  阅读(90)  评论(0编辑  收藏  举报