08 2023 档案
摘要:# Pytorch 并行:DistributedDataParallel 一个节点上往往有多个 GPU(单机多卡),一旦有多个 GPU 空闲(~~当然得赶紧都占着~~),就需要合理利用多 GPU 资源,这与并行化训练是分不开的。但关于 DistributedDataParallel 的博文少之又少,
阅读全文
摘要:强化学习Chapter4——两个基本优化算法(2) 上一节,依据贝尔曼方程得出了策略迭代算法(policy iteration),本节将介绍另一种根据贝尔曼最优方程提出的,价值迭代算法(value iteration)。在此之后,将阐述这两种算法的共性与区别,并总结出一个中间性能的截断策略迭代算法(
阅读全文
摘要:强化学习Chapter4——两个基本优化算法(1) 上一节导出了状态价值函数的贝尔曼方程以及最优状态价值函数: \[\begin{aligned} V^\pi(s) &=E_{a\sim \pi,s’\sim P}[r(s,a)+\gamma V^\pi(s‘)]\\ &= \sum_{a}\pi(
阅读全文
阅读目录(Content)
此页目录为空