强化学习_PolicyGradient(策略梯度)_代码解析
摘要:
使用策略梯度解决离散action space问题。 一、导入包,定义hyper parameter 二、PolicyGradient Agent的构造函数: 1、设置问题的状态空间维度,动作空间维度; 2、序列采样的存储结构; 3、调用创建用于策略函数近似的神经网络的函数,tensorflow的se 阅读全文
posted @ 2019-05-26 16:37 JASONlee3 阅读(2201) 评论(0) 推荐(0) 编辑