摘要: 一般情况下我们使用一个batch的数据计算出一个平均的loss,再使用这个loss反向传播求得模型参数的梯度并更新,例如: loss = tf.reduce_mean(y - y_pred) # 文中y和y_pred的shape均为:[b, 1],其中b是batch_size. 这种情况比较好理解, 阅读全文
posted @ 2021-11-07 13:51 风和雨滴 阅读(1637) 评论(0) 推荐(0) 编辑
摘要: 踩坑事项: 一定要将for循环的次数在构建层时就传入__init__(),而不是和inputs一起使用call传入!特别是每轮循环都需要tf.concat()新张量的时候。否则tf构建动态图无法计算循环后数据的维度报错! 阅读全文
posted @ 2021-11-01 17:21 风和雨滴 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 多智能体的常见设定: 合作关系。比如工业机器人 竞争关系。比如拳击比赛 合作-竞争混合。比如机器人足球比赛 利己主义。比如股票自动交易系统 多智能体系统的术语: 有n个智能体; $S$为状态; $A^i$表示第$i$个智能体的动作; 状态转移: \[ p(s^{\prime} | s,a^1,a^2 阅读全文
posted @ 2021-07-30 23:00 风和雨滴 阅读(865) 评论(0) 推荐(0) 编辑
摘要: 最优优势函数: \[ A^*(s,a) = Q^*(s,a) - V^*(s) \] 其表示的含义是在状态s下动作$a$相对于最优状态价值的优势。 由于$V^(s,a) = \mathop {max}\limits_aQ^(s,a)$,故$A^(s,a) ⇐ 0$,即$\mathop {max}\l 阅读全文
posted @ 2021-07-30 20:07 风和雨滴 阅读(277) 评论(0) 推荐(0) 编辑
摘要: bootstrapping:左脚踩右脚上升。用一个估算去更新同类的估算。 DQN的高估问题:TD算法导致DQN高估真实的动作价值。以下两个原因导致DQN出现高估: TD target:\(y_t = r_t + \gamma \cdot \mathop {max}\limits_aQ^*(s_{t+ 阅读全文
posted @ 2021-07-30 20:00 风和雨滴 阅读(228) 评论(0) 推荐(0) 编辑
摘要: Experience replay 经验回放 原始TD算法的缺点: 每一个transition用完之后就被舍弃了。 相邻state之间的相关性非常大,这对于训练是有害的,把用于训练的transition之间的顺序打散更利于训练。 经验回放: 使用replay buffer存储最近的n(105 ~ 1 阅读全文
posted @ 2021-07-30 19:56 风和雨滴 阅读(120) 评论(0) 推荐(0) 编辑
摘要: TD算法 SARSA算法: SARSA名字由来:SARSA每次用一个五元组来更新动作价值表(Q表):\((s_t,a_t,r_t,s_{t+1},a_{t+1})\),SARSA的每一个字母对应元组里的一个元素。 表格版本。状态和动作都是有限的,以状态为行,动作为列建表,表中的每个元素表示动作价值$ 阅读全文
posted @ 2021-07-30 19:49 风和雨滴 阅读(551) 评论(0) 推荐(0) 编辑
摘要: value-based,价值学习:DQN。构建一个神经网络,输入是state,有多个输出对应采取每个action到最后所能获得的累加奖励Q-value。一开始这个网络估计出来的Q-value很差,我们使用TD算法,让 \[ target = r(a_t|s_t) + \lambda Q(s_{t+1 阅读全文
posted @ 2021-07-14 16:08 风和雨滴 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 强化学习的三个特征: 闭环:动作决定环境,又依据环境选择动作。 非监督。 当前行动不仅影响短期奖励,也会影响长期奖励。 强化学习的元素: policy:\(\pi (a|s)\),policy决定了在特定state下将会选择的action。 reward signal:在选择动作时,环境提供数字信号 阅读全文
posted @ 2021-07-14 16:07 风和雨滴 阅读(750) 评论(0) 推荐(0) 编辑
摘要: spark master:默认是8080 修改方式:在sbin目录下编辑start-master.sh文件,修改SPARK_MASTER_WEBUI_PORT=8080 spark worker:默认是8081 修改方式:在sbin目录下编辑start-slave.sh文件,修改SPARK_MAST 阅读全文
posted @ 2021-02-24 20:29 风和雨滴 阅读(2814) 评论(0) 推荐(1) 编辑