2024年3月9日

发表于 2024-03-09 13:36阅读：346评论：0推荐：0

摘要：无模型的强化学习算法学习「强化学习」（基于这本教材，强烈推荐）时的一些总结，在此记录一下。动态规划算法需要马尔可夫决策过程是已知的（状态转移函数、奖励函数已知），智能体不用真正地与环境互动也能在「理性」世界里求得最优策略。现实通常并非如此，环境已知恰恰是很少见的。所以这里来看看「无模型的强化学阅读全文 »

posted @ 2024-03-09 13:36 狐王驾虎阅读(346) 评论(0) 推荐(0) 编辑

FoxTiger

我们只能向前看到很短的距离，但是我们能够看到仍然有很多事情要做。

公告

文章目录

访问主页

qrCode

关注

点击开启

跳至底部

昵称：狐王驾虎
园龄： 1年4个月
粉丝： 40
关注： 2

+加关注

FoxTiger

FoxTiger

我们只能向前看到很短的距离，但是我们能够看到仍然有很多事情要做。

公告

搜索

常用链接

合集

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论