2020 年 5月 27 日随笔档案 - 渣渣辉啊

2020年5月27日

摘要：在上一篇博客：DQN（Deep Q-learning）入门教程（一）之强化学习介绍中有三个很重要的函数：策略：\(\pi(a|s) = P(A_t=a | S_t=s)\) 状态价值函数：\(v_\pi(s)=\mathbb{E}\left[R_{t+1}+\gamma \left(S_{t+1} 阅读全文

posted @ 2020-05-27 15:21 渣渣辉啊阅读(5179) 评论(2) 推荐(2) 编辑

于风‘s blog

「博学之，审问之，慎思之，明辨之，笃行之」

公告