随笔档案「2018年8月30日」：强化学习 ... - 萧凡客

2018年8月30日

摘要：强化学习：是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。(来源百度百科) 强化学习的指导信息很少，而且往往是在事后（最后一个状态）才给出的，这就导致了一个问题，就是获得正回报或者负回报以后，如何将回报分配给前面的状态。 1.K-摇阅读全文

posted @ 2018-08-30 17:08 萧凡客阅读(437) 评论(0) 推荐(0)

萧凡客

公告