2021 年 7月 30 日随笔档案 - 风和雨滴

2021年7月30日

摘要：多智能体的常见设定：合作关系。比如工业机器人竞争关系。比如拳击比赛合作-竞争混合。比如机器人足球比赛利己主义。比如股票自动交易系统多智能体系统的术语：有n个智能体； $S$为状态； $A^i$表示第$i$个智能体的动作；状态转移： \[ p(s^{\prime} | s,a^1,a^2 阅读全文

posted @ 2021-07-30 23:00 风和雨滴阅读(865) 评论(0) 推荐(0) 编辑

dueling network

摘要：最优优势函数： \[ A^*(s,a) = Q^*(s,a) - V^*(s) \] 其表示的含义是在状态s下动作$a$相对于最优状态价值的优势。由于$V^(s,a) = \mathop {max}\limits_aQ^(s,a)$，故$A^(s,a) ⇐ 0$，即$\mathop {max}\l 阅读全文

posted @ 2021-07-30 20:07 风和雨滴阅读(277) 评论(0) 推荐(0) 编辑

DQN高阶技巧

摘要： bootstrapping：左脚踩右脚上升。用一个估算去更新同类的估算。 DQN的高估问题：TD算法导致DQN高估真实的动作价值。以下两个原因导致DQN出现高估： TD target：\(y_t = r_t + \gamma \cdot \mathop {max}\limits_aQ^*(s_{t+ 阅读全文

posted @ 2021-07-30 20:00 风和雨滴阅读(228) 评论(0) 推荐(0) 编辑

Experience replay 经验回放

摘要： Experience replay 经验回放原始TD算法的缺点：每一个transition用完之后就被舍弃了。相邻state之间的相关性非常大，这对于训练是有害的，把用于训练的transition之间的顺序打散更利于训练。经验回放：使用replay buffer存储最近的n(105 ~ 1 阅读全文

posted @ 2021-07-30 19:56 风和雨滴阅读(120) 评论(0) 推荐(0) 编辑

TD算法

摘要： TD算法 SARSA算法： SARSA名字由来：SARSA每次用一个五元组来更新动作价值表（Q表）：$(s_t,a_t,r_t,s_{t+1},a_{t+1})$，SARSA的每一个字母对应元组里的一个元素。表格版本。状态和动作都是有限的，以状态为行，动作为列建表，表中的每个元素表示动作价值$ 阅读全文

posted @ 2021-07-30 19:49 风和雨滴阅读(551) 评论(0) 推荐(0) 编辑

风和雨滴

公告