强化学习小结

本文主要是记录一下个人学习RL的总结，梳理了常见的RL方法，同时也尝试区分了一些常见的概念。如有错误之处，欢迎批评指正，不胜感激。

强化学习

该方法通常是估计动作价值 \(Q(s,a)\) 。其隐含的策略是采用更高动作价值的动作。
常见的方案：

显式地学习一个动作策略。

\[grad=E[\sum_t^T{\psi\nabla_{\theta} \log\pi_{\theta(a_t|s_t)}}] \]

常见的方案：

REINFORCE：on-policy算法。通过蒙特卡洛方法估计序列的 \(Q(s,a)\) 然后对现有的策略 \(\pi_{\theta}\) 进行梯度上升。
Actor-Critic：优化带参数的策略，同时也学习一个价值函数，价值函数用来辅助策略的学习。
1. 在REINFORCE中轨迹回报项是通过采样的方式获得。在Actor-Critic框架中，这项回报更加灵活，可以使用：
  1. 轨迹的总回报
  2. 执行t时刻动作 \(a_t\) 后的回报
  3. 基于基线的回报改进
  4. 使用不断学习的动作价值函数
2. TPRO（2015）：信任区域策略优化。解决训练不稳定的问题。
3. PPO（2017）： Proximal Policy Optimization。基于TPRO的思想，但是计算量减少，是值得优先考虑的算法。
4. SAC：Soft Actor-Critic。损失函数中引进了一个自动调整熵正则项。我们知道策略的熵值高表示策略的随机性强，具有更好的探索能力。同时在熵值过高的时候，该项会调整策略训练更加专注于价值提升。

on-policy or off：这是两种不同的学习方式。on-policy算法——使用当前策略采集到的数据计算梯度并且更新策略。off-policy 算法则是行为策略和目标策略可以不同，更加灵活，但是引入了估计偏差。
online or offline：两者都基于智能体和环境的交互并且获得反馈数据。两者的区别是：在线策略直接使用反馈数据，离线策略先将反馈数据存入buffer，需要时再采样。离线算法对超参数敏感，难调参。
model-based or model-free：model指的是环境的模型，是否对环境模型进行建模。如果对环境进行建模，那么我们将能够清楚知道执行每个动作之后的下个状态，甚至能够观察到整条episode。上述提到的value、policy based，都是model-free的方案，不对环境进行建模。

posted @ 2024-07-11 15:41 LiveINT 阅读(69) 评论(0) 收藏举报

刷新页面返回顶部