03 2024 档案
发表于 2024-03-09 13:36阅读:346评论:0推荐:0
摘要:无模型的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 动态规划算法需要马尔可夫决策过程是已知的(状态转移函数、奖励函数已知),智能体不用真正地与环境互动也能在「理性」世界里求得最优策略。 现实通常并非如此,环境已知恰恰是很少见的。所以这里来看看「无模型的强化学
阅读全文 »
发表于 2024-03-08 16:35阅读:113评论:0推荐:0
摘要:基于动态规划的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 在马尔可夫决策过程 环境模型已知(也就是状态转移函数P、奖励函数r已知)的情况下,我们可以通过 「动态规划」 求得马尔可夫决策过程的最优策略 。 1. 动态规划 对于做过算法题目的
阅读全文 »
发表于 2024-03-04 21:41阅读:193评论:0推荐:0
摘要:马尔可夫决策过程 个人在学习「马尔可夫过程」时(基于这本教材,强烈推荐),做了些总结,并将遇到了一些感到困惑自我解答了,在此整理并记录一下。 1. 马尔可夫性质 简单的一句话:当前状态 只取决于上一时刻 的状态。这个视频很生动地解释了这一性质。 2. 马尔可夫过程 「马尔可夫过程」也叫「马尔可夫链」
阅读全文 »
一起来玩吧~
- 积分排名
- 最新随笔
- 我的标签
- 随笔分类
- 文章分类
- 阅读排行
- 推荐排行
- 最新评论
- Re:游戏AI行为决策——HTN(分层任务网络)受益匪浅--易锦
- Re:游戏AI行为决策——HTN(分层任务网络)最近在写一个游戏规划方法和llm结合的论文,大佬有意愿可以联系我呀wx z1092107433--Siifish
- Re:游戏AI行为决策——HTN(分层任务网络)大佬太牛了,讲得真不错👍--Siifish
- Re:游戏AI行为决策——GOAP(目标导向型行动规划)@秋叶痕 emmm,这里的世界状态是用位图表示的,每个二进制位上的1/0,代表了一种状态的true/false。因此values确实是记录世界状态,但是是所有世界状态,各个状态在values这个值的各...--狐王驾虎
- Re:游戏AI行为决策——GOAP(目标导向型行动规划)楼主,不知道是不是我理解有问题,GoapWorldState的values应该是记录世界状态的值(true/false=1/0)?如果状态都为false的话,那么values为0,假设目标状态包含A,...--秋叶痕
- Re:游戏AI行为决策——HTN(分层任务网络)
- 随笔档案
- 文章档案
公告
搜索
最新评论
- 1. Re:游戏AI行为决策——HTN(分层任务网络)
受益匪浅
- --易锦
- 2. Re:游戏AI行为决策——HTN(分层任务网络)
最近在写一个游戏规划方法和llm结合的论文,大佬有意愿可以联系我呀wx
z1092107433- --Siifish
- 3. Re:游戏AI行为决策——HTN(分层任务网络)
大佬太牛了,讲得真不错👍
- --Siifish
- 4. Re:游戏AI行为决策——GOAP(目标导向型行动规划)
- @秋叶痕 emmm,这里的世界状态是用位图表示的,每个二进制位上的1/0,代表了一种状态的true/false。因此values确实是记录世界状态,但是是所有世界状态,各个状态在values这个值的各...
- --狐王驾虎
- 5. Re:游戏AI行为决策——GOAP(目标导向型行动规划)
- 楼主,不知道是不是我理解有问题,GoapWorldState的values应该是记录世界状态的值(true/false=1/0)?如果状态都为false的话,那么values为0,假设目标状态包含A,...
- --秋叶痕