摘要: 在上一篇博客:DQN(Deep Q-learning)入门教程(一)之强化学习介绍中有三个很重要的函数: 策略:\(\pi(a|s) = P(A_t=a | S_t=s)\) 状态价值函数:\(v_\pi(s)=\mathbb{E}\left[R_{t+1}+\gamma \left(S_{t+1} 阅读全文
posted @ 2020-05-27 15:21 渣渣辉啊 阅读(5179) 评论(2) 推荐(2) 编辑