李弘毅的强化学习

1\policy Gradient(Review)

　　三个组件:Actor\Enviroment\Reward

　　Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward.

2\Policy of Actor

　　policy:π,是带有参数的network

　　input:机器可以理解的数据,矢量或者矩阵

　　output:动作的选项,有几个就是有几个neuron.network给这几个动作权值.权值不同,采取的policy就不同.

　　流程:Actor-->环境--->判断结果采取action,采取Action之后会得到reward

posted @ 2019-06-09 00:42 马帅领阅读(174) 评论(0) 收藏举报

刷新页面返回顶部

马帅领