摘要:
无模型的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 动态规划算法需要马尔可夫决策过程是已知的(状态转移函数、奖励函数已知),智能体不用真正地与环境互动也能在「理性」世界里求得最优策略。 现实通常并非如此,环境已知恰恰是很少见的。所以这里来看看「无模型的强化学 阅读全文 »
发表于 2024-03-09 13:36阅读:346评论:0推荐:0
一起来玩吧~
- 积分排名
- 最新随笔
- 我的标签
- 随笔分类
- 文章分类
- 阅读排行
- 推荐排行
- 最新评论
- Re:游戏AI行为决策——HTN(分层任务网络)受益匪浅--易锦
- Re:游戏AI行为决策——HTN(分层任务网络)最近在写一个游戏规划方法和llm结合的论文,大佬有意愿可以联系我呀wx z1092107433--Siifish
- Re:游戏AI行为决策——HTN(分层任务网络)大佬太牛了,讲得真不错👍--Siifish
- Re:游戏AI行为决策——GOAP(目标导向型行动规划)@秋叶痕 emmm,这里的世界状态是用位图表示的,每个二进制位上的1/0,代表了一种状态的true/false。因此values确实是记录世界状态,但是是所有世界状态,各个状态在values这个值的各...--狐王驾虎
- Re:游戏AI行为决策——GOAP(目标导向型行动规划)楼主,不知道是不是我理解有问题,GoapWorldState的values应该是记录世界状态的值(true/false=1/0)?如果状态都为false的话,那么values为0,假设目标状态包含A,...--秋叶痕
- Re:游戏AI行为决策——HTN(分层任务网络)
- 随笔档案
- 文章档案
公告
搜索
最新评论
- 1. Re:游戏AI行为决策——HTN(分层任务网络)
受益匪浅
- --易锦
- 2. Re:游戏AI行为决策——HTN(分层任务网络)
最近在写一个游戏规划方法和llm结合的论文,大佬有意愿可以联系我呀wx
z1092107433- --Siifish
- 3. Re:游戏AI行为决策——HTN(分层任务网络)
大佬太牛了,讲得真不错👍
- --Siifish
- 4. Re:游戏AI行为决策——GOAP(目标导向型行动规划)
- @秋叶痕 emmm,这里的世界状态是用位图表示的,每个二进制位上的1/0,代表了一种状态的true/false。因此values确实是记录世界状态,但是是所有世界状态,各个状态在values这个值的各...
- --狐王驾虎
- 5. Re:游戏AI行为决策——GOAP(目标导向型行动规划)
- 楼主,不知道是不是我理解有问题,GoapWorldState的values应该是记录世界状态的值(true/false=1/0)?如果状态都为false的话,那么values为0,假设目标状态包含A,...
- --秋叶痕