摘要: 多智能体的常见设定: 合作关系。比如工业机器人 竞争关系。比如拳击比赛 合作-竞争混合。比如机器人足球比赛 利己主义。比如股票自动交易系统 多智能体系统的术语: 有n个智能体; $S$为状态; $A^i$表示第$i$个智能体的动作; 状态转移: \[ p(s^{\prime} | s,a^1,a^2 阅读全文
posted @ 2021-07-30 23:00 风和雨滴 阅读(865) 评论(0) 推荐(0) 编辑
摘要: 最优优势函数: \[ A^*(s,a) = Q^*(s,a) - V^*(s) \] 其表示的含义是在状态s下动作$a$相对于最优状态价值的优势。 由于$V^(s,a) = \mathop {max}\limits_aQ^(s,a)$,故$A^(s,a) ⇐ 0$,即$\mathop {max}\l 阅读全文
posted @ 2021-07-30 20:07 风和雨滴 阅读(277) 评论(0) 推荐(0) 编辑
摘要: bootstrapping:左脚踩右脚上升。用一个估算去更新同类的估算。 DQN的高估问题:TD算法导致DQN高估真实的动作价值。以下两个原因导致DQN出现高估: TD target:\(y_t = r_t + \gamma \cdot \mathop {max}\limits_aQ^*(s_{t+ 阅读全文
posted @ 2021-07-30 20:00 风和雨滴 阅读(228) 评论(0) 推荐(0) 编辑
摘要: Experience replay 经验回放 原始TD算法的缺点: 每一个transition用完之后就被舍弃了。 相邻state之间的相关性非常大,这对于训练是有害的,把用于训练的transition之间的顺序打散更利于训练。 经验回放: 使用replay buffer存储最近的n(105 ~ 1 阅读全文
posted @ 2021-07-30 19:56 风和雨滴 阅读(120) 评论(0) 推荐(0) 编辑
摘要: TD算法 SARSA算法: SARSA名字由来:SARSA每次用一个五元组来更新动作价值表(Q表):\((s_t,a_t,r_t,s_{t+1},a_{t+1})\),SARSA的每一个字母对应元组里的一个元素。 表格版本。状态和动作都是有限的,以状态为行,动作为列建表,表中的每个元素表示动作价值$ 阅读全文
posted @ 2021-07-30 19:49 风和雨滴 阅读(551) 评论(0) 推荐(0) 编辑