摘要: 之前杂七杂八的看了很多关于强化学习的知识,脑子里比较混乱,经过这次的梳理感觉清晰条理了很多。 一、Terminologies Agent、State、Action、Environment、Reward Policy:Π( a | s ),策略函数,以状态 s 作为输入,输出所有动作 a 的概率。 S 阅读全文
posted @ 2022-03-15 21:47 Sunshine_y 阅读(128) 评论(0) 推荐(1) 编辑