2024年3月8日

基于动态规划的强化学习算法

发表于 2024-03-08 16:35阅读：113评论：0推荐：0

摘要：基于动态规划的强化学习算法学习「强化学习」（基于这本教材，强烈推荐）时的一些总结，在此记录一下。在马尔可夫决策过程环境模型已知（也就是状态转移函数P、奖励函数r已知）的情况下，我们可以通过「动态规划」求得马尔可夫决策过程的最优策略

π^{*}

。 1. 动态规划对于做过算法题目的阅读全文 »

posted @ 2024-03-08 16:35 狐王驾虎阅读(113) 评论(0) 推荐(0) 编辑

FoxTiger

我们只能向前看到很短的距离，但是我们能够看到仍然有很多事情要做。

公告

文章目录

访问主页

qrCode

关注

点击开启

跳至底部

昵称：狐王驾虎
园龄： 1年4个月
粉丝： 40
关注： 2

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:游戏AI行为决策——HTN（分层任务网络）
受益匪浅
--易锦
2. Re:游戏AI行为决策——HTN（分层任务网络）
最近在写一个游戏规划方法和llm结合的论文，大佬有意愿可以联系我呀wx
z1092107433
--Siifish
3. Re:游戏AI行为决策——HTN（分层任务网络）
大佬太牛了，讲得真不错👍
--Siifish
4. Re:游戏AI行为决策——GOAP（目标导向型行动规划）
@秋叶痕 emmm，这里的世界状态是用位图表示的，每个二进制位上的1/0，代表了一种状态的true/false。因此values确实是记录世界状态，但是是所有世界状态，各个状态在values这个值的各...
--狐王驾虎
5. Re:游戏AI行为决策——GOAP（目标导向型行动规划）
楼主，不知道是不是我理解有问题，GoapWorldState的values应该是记录世界状态的值（true/false=1/0）？如果状态都为false的话，那么values为0，假设目标状态包含A,...
--秋叶痕