强化学习（1）----简

1、介绍：强化学习是什么？

假定一个智能体（agent），在一个未知的环境（environment）中处于当前状态（state），采取了一个行动（action），然后收获了一个回报（reward），并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

如果打球（惩罚 -1），如果学习（奖励 +1）。

当前价值Q = r【当前奖励】+γ【折扣因子】*max(下一步价值)

posted on 2018-09-14 22:14 吱吱了了阅读(281) 评论(0) 收藏举报

刷新页面返回顶部