2024 年 10月 29 日随笔档案 - cxy8

2024年10月29日

摘要：目录引入TD learing of state valuesTD learing of action values SarsaTD learing of action values Expected SarsaTD learing of action values n-step SarsaTD le 阅读全文

posted @ 2024-10-29 21:10 cxy8 阅读(74) 评论(0) 推荐(0) 编辑

强化学习的数学原理-06随即近似理论和随机梯度下降

摘要：目录Robbins-Monro algorithmStochastic gradient descentBGD、MBGD、 and SGDSummary Robbins-Monro algorithm 迭代式求平均数的算法 \(Stochastic \; approximation \;(SA)\) 阅读全文

posted @ 2024-10-29 14:02 cxy8 阅读(64) 评论(0) 推荐(0) 编辑

强化学习的数学原理-05蒙特卡洛方法

摘要：目录MC BasicMC Exploring StartsMC Epsilon-Greedy MC Basic 从\(model \: base \:\)的\(Reinforcement \: learning \:\)过渡到\(model \: free \:\)的\(\: Reinforceme 阅读全文

posted @ 2024-10-29 09:44 cxy8 阅读(48) 评论(0) 推荐(0) 编辑

沉下心去做些事

什么都无法舍弃的人，注定什么都无法改变！

公告