摘要: Soft Actor Critic 系列 前言 Soft Actor Critic 一共有3篇论文。单纯从方法上来看三篇论文是递进关系。 第一篇:《Reinforcement Learning with Deep Energy-Based Policies》 这一篇是后面两篇论文的理论基础,推导了基 阅读全文
posted @ 2024-12-13 16:52 nagimegesa 阅读(421) 评论(0) 推荐(0)
摘要: 强化学习 一、基本概念 状态state 智能体相对于环境的状态, 用 s 表示 状态空间 state space 智能体所有的状态的集合叫做状态空间, 用 \(S_i\) 表示 行动 action 在每一个状态可以采取的行动, 用 A 表示 行动空间 action space 在某个状态下,所有可行 阅读全文
posted @ 2024-12-13 15:23 nagimegesa 阅读(290) 评论(0) 推荐(0)