摘要: 强化学习:是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。(来源百度百科) 强化学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。 1.K-摇 阅读全文
posted @ 2018-08-30 17:08 萧凡客 阅读(398) 评论(0) 推荐(0) 编辑