摘要:
在很多应用场景中,马尔可夫决策过程的状态转移概率 \(p(s^ {\prime}|s,a)\) 和奖励函数 \(r\left( {s,a,s^{\prime}} \right)\) 都是未知的。这种情况一般需要智能体与环境交互,然后收集一些样本,然后再根据这些样本来求解最优策略,这种基于采样的学习方 阅读全文
摘要:
简直整公式的神器啊,直接对公式截图然后就出来对应的Latex代码了 1 下载桌面版 直接下载安装就可以了 链接:Mathpix官网 2 注册个账号 每个月有50个免费截图次数,用完了换个邮箱再注册就ok了 链接:Mathpix账号注册 3 使用 打开桌面版应用点击加号 随便找个公式截图 可以看出 阅读全文