08 2023 档案

摘要:# Pytorch 并行:DistributedDataParallel 一个节点上往往有多个 GPU(单机多卡),一旦有多个 GPU 空闲(~~当然得赶紧都占着~~),就需要合理利用多 GPU 资源,这与并行化训练是分不开的。但关于 DistributedDataParallel 的博文少之又少, 阅读全文
posted @ 2023-08-17 18:25 tsyhahaha 阅读(415) 评论(0) 推荐(0) 编辑
摘要:强化学习Chapter4——两个基本优化算法(2) 上一节,依据贝尔曼方程得出了策略迭代算法(policy iteration),本节将介绍另一种根据贝尔曼最优方程提出的,价值迭代算法(value iteration)。在此之后,将阐述这两种算法的共性与区别,并总结出一个中间性能的截断策略迭代算法( 阅读全文
posted @ 2023-08-04 00:29 tsyhahaha 阅读(161) 评论(0) 推荐(0) 编辑
摘要:强化学习Chapter4——两个基本优化算法(1) 上一节导出了状态价值函数的贝尔曼方程以及最优状态价值函数: \[\begin{aligned} V^\pi(s) &=E_{a\sim \pi,s’\sim P}[r(s,a)+\gamma V^\pi(s‘)]\\ &= \sum_{a}\pi( 阅读全文
posted @ 2023-08-03 22:38 tsyhahaha 阅读(179) 评论(0) 推荐(0) 编辑

阅读目录(Content)

此页目录为空

点击右上角即可分享
微信分享提示