随笔分类 - 论文阅读
摘要:分层强化学习 HRL方法通过引入抽象( Abstraction)机制来实现状态空间的降维,将学习任务分解到抽象内部和抽象之间不同层次上来分别实现,使得每层上的任务仅需在低维空间中进行。因此,建立在合理抽象机制上的HRL能极大减少存储空间和计算量,加快学习速度,有利于解决“维度灾难"问题。典型的HRL
阅读全文
摘要:1 付宇鹏,邓向阳,何明,等. 基于强化学习的固定翼飞机姿态控制方法研究_付宇鹏[J]. 控制与决策, : 1-6. 输入输出 控制器输入为飞机纵向和横向状态变量以及姿态误差,输出升降舵和副翼偏转角度指令,实现不同初始条件下飞机姿态角快速响应 模型结构 分立的神经网络模型,提高了算法收敛效率 本设计
阅读全文
摘要:博弈解与强化学习 二 基础算法 2.1 引言 一个随机博弈可以看成是一个多智能体强化学习过程,但其实这两个概念不能完全等价,随机博弈中假定每个状态的奖励矩阵是已知的,不需要学习。而多智能体强化学习则是通过与环境的不断交互来学习每个状态的奖励值函数,再通过这些奖励值函数来学习得到最优纳什策略。通常情况
阅读全文
摘要:扩展性博弈 与 CFR算法 CFR算法的发展 算法 | 算法 | 鲁棒采样变体 | 神经网络变体 | 后悔值 | 后悔值匹配 | 策略更新 | 收敛速度 | 解概念 | 发表 | 时间 | | | | | | | | | | | | | CFR:Regret Minimization in Game
阅读全文