李弘毅的强化学习
1\policy Gradient(Review)
三个组件:Actor\Enviroment\Reward
Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward.
2\Policy of Actor
policy:π,是带有参数的network
input:机器可以理解的数据,矢量或者矩阵
output:动作的选项,有几个就是有几个neuron.network给这几个动作权值.权值不同,采取的policy就不同.
流程:Actor-->环境--->判断结果采取action,采取Action之后会得到reward