摘要: \(TD(\lambda)\)是统一蒙特卡洛算法(MC)和时序差分算法(TD)的第二种形式。第一种形式也就是 \(TD(n)\) 算法。具体来说, \(TD(n)\) 的公式可以写为: \[\begin{equation} \begin{aligned} G_{t:t+1} &= R_{t+1} + 阅读全文
posted @ 2025-01-10 14:44 nagimegesa 阅读(273) 评论(0) 推荐(0)