Reinforcement Learning≐π∗↕π∗≐{π(s)},s∈S↕⎧⎨⎩π(s)=argmaxavπ(s′|s,a),s′∈S(s),orπ(s)=argmaxaqπ(s,a)↕{v∗(s),orq∗(s,a)↕approximation cases:{^v(s,θ)≐θTϕ(s),state value function^q(s,a,θ)≐θTϕ(s,a),action value functionwhereθ - value function's weight vector(1)
算法描述(ERINFORCE: A Monte Carlo Policy Gradient Method (episodic))
请看原书,在此不做拗述。
带基数的蒙特卡洛策略梯度强化算法(ERINFORCE with baseline)
策略价值计算公式
∇η(θ)=∑sdπ(s)∑aqπ(s,a)∇θπ(a|s,θ)=∑sdπ(s)∑a(qπ(s,a)−b(s))∇θπ(a|s,θ)(10)(11)∵∑ab(s)∇θπ(a|s,θ)=b(s)∇θ∑aπ(a|s,θ)=b(s)∇θ1=0whereb(s) - an arbitrary baseline function, e.g. b(s)=^v(s,w)
δ=R+γ^v(s′,w)−^v(s′,w)ew=λwew+γt∇w^v(s,w)wt+1=wt+βδeweθ=λθeθ+γt∇θlogπ(At|St,θ)θt+1=θt+αδeθwhereR+γ^v(s′,w)=G(0)tδ - TD errorew - eligibility trace of state value functioneθ - eligibility trace of policy value function(14)
算法描述
请看原书,在此不做拗述。
针对连续性任务的策略梯度算法(Policy Gradient for Continuing Problems(Average Reward Rate))
Update Rule Actor-Critic with eligibility traces (continuing) 公式
δ=R−¯R+γ^v(s′,w)−^v(s′,w)¯R=¯R+ηδew=λwew+γt∇w^v(s,w)wt+1=wt+βδeweθ=λθeθ+γt∇θlogπ(At|St,θ)θt+1=θt+αδeθwhereR+γ^v(s′,w)=G(0)tδ - TD errorew - eligibility trace of state value functioneθ - eligibility trace of policy value function(18)
算法描述(Actor-Critic with eligibility traces (continuing))
请看原书,在此不做拗述。 原书还没有完成,这章先停在这里
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具