随笔分类 - 论文阅读

分层强化学习3

摘要：分层强化学习 HRL方法通过引入抽象( Abstraction)机制来实现状态空间的降维，将学习任务分解到抽象内部和抽象之间不同层次上来分别实现,使得每层上的任务仅需在低维空间中进行。因此，建立在合理抽象机制上的HRL能极大减少存储空间和计算量，加快学习速度，有利于解决“维度灾难"问题。典型的HRL 阅读全文

posted @ 2022-12-08 20:06 英飞阅读(456) 评论(0) 推荐(0) 编辑

强化学习与控制器

摘要：1 付宇鹏,邓向阳,何明,等. 基于强化学习的固定翼飞机姿态控制方法研究_付宇鹏[J]. 控制与决策, : 1-6. 输入输出控制器输入为飞机纵向和横向状态变量以及姿态误差，输出升降舵和副翼偏转角度指令，实现不同初始条件下飞机姿态角快速响应模型结构分立的神经网络模型，提高了算法收敛效率本设计阅读全文

posted @ 2022-12-08 19:59 英飞阅读(1195) 评论(0) 推荐(0) 编辑

博弈论与强化学习算法一 MinimaxQ, NashQ ,FFQ

摘要：博弈解与强化学习二基础算法 2.1 引言一个随机博弈可以看成是一个多智能体强化学习过程,但其实这两个概念不能完全等价，随机博弈中假定每个状态的奖励矩阵是已知的，不需要学习。而多智能体强化学习则是通过与环境的不断交互来学习每个状态的奖励值函数，再通过这些奖励值函数来学习得到最优纳什策略。通常情况阅读全文

posted @ 2022-11-20 18:57 英飞阅读(3477) 评论(0) 推荐(0) 编辑

博弈论算法 CFR算法

摘要：扩展性博弈与 CFR算法 CFR算法的发展算法 | 算法 | 鲁棒采样变体 | 神经网络变体 | 后悔值 | 后悔值匹配 | 策略更新 | 收敛速度 | 解概念 | 发表 | 时间 | | | | | | | | | | | | | CFR：Regret Minimization in Game 阅读全文

posted @ 2022-11-20 18:47 英飞阅读(717) 评论(0) 推荐(0) 编辑

公告

昵称：英飞
园龄： 5年
粉丝： 65
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

英飞

卧龙岗闲散人

随笔分类 - 论文阅读

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

合集 (2)

随笔分类 (258)

随笔档案 (124)

阅读排行榜

评论排行榜

推荐排行榜

最新评论