强化学习读书笔记 - 00 - 术语和数学符号

强化学习读书笔记 - 00 - 术语和数学符号

学习笔记:
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

基本概念

Agent - 本体。学习者、决策者。
Environment - 环境。本体外部的一切。
s - 状态(state)。一个表示环境的数据。
S,S - 所有状态集合。环境中所有的可能状态。
a - 行动(action)。本体可以做的动作。
A,A - 所有行动集合。本体可以做的所有动作。
A(s),A(s) - 状态s的行动集合。本体在状态s下,可以做的所有动作。
r - 奖赏(reward)。本体在一个行动后,获得的奖赏。
R - 所有奖赏集合。本体可以获得的所有奖赏。

St - 第t步的状态(state)。t from 0
At - 第t步的行动(select action)。t from 0
Rt - 第t步的奖赏(reward)。t from 1
Gt - 第t步的长期回报(return)。t from 0。 强化学习的目标1:追求最大回报

(1)Gtk=0γkRt+k+1wherek - the sequence number of an action.γ - discount rate, 0γ1

可以看出,当γ=0时,只考虑当前的奖赏。当γ=1时,未来的奖赏没有损失。
Gt(n) - 第t步的n步回报(n-step return)。。一个回报的近似算法。

(2)Gt(n)k=0nγkRt+k+1wherek - the sequence number of an action.γ - discount rate, 0γ1

Gtλ - 第t步的λ回报(λ-return)。一个回报的近似算法。可以说是Gt(n)的优化。

(3)Continuing tasks: Gtλ(1λ)n=1λn1Gt(n)Episodic tasks: Gtλ(1λ)n=1Tt1λn1Gt(n)+λTt1Gtwhereλ[0,1](1λ)n=1λn1=1(1λ)n=1Tt1λn1+λTt1=1if λ=0,become to 1-step TD algorithmif λ=1,become to Monte Carlo algorithm

策略

π - 策略(policy)。强化学习的目标2:找到最优策略
策略规定了状态s时,应该选择的行动a

(4)π=[π(s1),,π(sn)]

π(s) - 策略π在状态s下,选择的行动。
π - 最优策略(optimal policy)。
π(a|s) - 随机策略π在状态s下,选择的行动a的概率。

r(s,a) - 在状态s下,选择行动a的奖赏。
r(s,as) - 在状态s下,选择行动a,变成(状态s)的奖赏。
p(s,r|s,a) - (状态s、行动a)的前提下,变成(状态s、奖赏r)的概率。
p(s|s,a) - (状态s、行动a)的前提下,变成(状态s)的概率。
vπ(s) - 状态价值。使用策略π,(状态s的)长期奖赏Gt
qπ(s,a) - 行动价值。使用策略π,(状态s,行动a的)长期奖赏Gt
v(s) - 最佳状态价值。
q(s,a) - 最佳行动价值。
V(s) - vπ(s)的集合。
Q(s,a) - qπ(s,a)的集合。

(5)For continuing tasks: Gtk=0γkRt+k+1For episodic tasks: Gtk=0Tt1γkRt+k+1vπ(s)Eπ[Gt|St=s]=Eπ[k=0γkRt+k+1|St=s]qπ(s,a)Eπ[Gt|St=s,At=a]=Eπ[k=0γkRt+k+1|St=s,At=a]vπ(s)=maxaAqπ(s,a)π(s)=argmaxa vπ(s|s,a)π(s) is the action which can get the next state which has the max value.π(s)=argmaxa qπ(s,a)π(s) is the action which can get the max action value from the current state.

由上面的公式可以看出:π(s)可以由vπ(s)或者qπ(s,a)决定。

(6)Reinforcement Learningππ{π(s)}, sS{π(s)=argmaxa vπ(s|s,a), sS(s),orπ(s)=argmaxa qπ(s,a){v(s),orq(s,a)approximation cases:{v^(s,θ)θTϕ(s),state value functionq^(s,a,θ)θTϕ(s,a),action value functionwhereθ - value function's weight vector

强化学习的目标3:找到最优价值函数v(s)或者q(s,a)

近似计算

强化学习的目标4:找到最优近似价值函数v^(St,θt)或者q^(St,At,θt)
强化学习的目标5:找到求解θ
ρtk - importance sampling ratio for time t to time k - 1。
J(s) - 状态s被访问的步骤序号。
θ - 近似价值函数的权重向量。
ϕ(s) - 近似价值函数的特征函数。是一个将状态s转化成计算向量的方法。这个结果和θ组成近似价值函数。
v^(St,θt) - 近似状态价值函数。

(7)v^θTϕ(s)

q^(St,At,θt) - 近似行动价值函数。

(8)q^θTϕ(s,a)

et - 第t步资格迹向量(eligibility trace rate)。可以理解为近似价值函数微分的优化值。

(9)e00etv^(St,θt)+γλet1θtθt+αδtet

α - 学习步长。α(0,1)
γ - 未来回报的折扣率(discount rate)。γ[0,1]
λ - λ-return中的比例参数。λ[0,1]
h(horizon)- 水平线h表示on-line当时可以模拟的数据步骤。t<hT

老O虎O机问题

q(a) - 行动 a 的真实奖赏(true value)。这个是(实际中)不可知的。期望计算的结果收敛(converge)与它。
Nt(a) - 在第t步之前,行动a被选择的次数。
Qt(a) - 行动 a 在第t步前(不包括第t步)的实际平均奖赏。

(10)Qt(a)=i=1t1Ri×1Ai=aNt(a)

Ht(a) - 对于行动a的学习到的倾向(reference)。
ϵ - 在ε-贪婪策略中,采用随机行动的概率[0,1)

通用数学符号

- 定义上的等价关系。
E[X] - X的期望值。
Pr{X=x} - 变量X值为x的概率。
vg - v渐近g。
vg - v约等于g。
R - 实数集合。
Rn - n个元素的实数向量。
maxaA F(a) - 在所有的行动中,求最大值F(a)
argmaxc F(c) - 求当F(c)为最大值时,参数c的值。

术语

episodic tasks - 情节性任务。指(强化学习的问题)会在有限步骤下结束。
continuing tasks - 连续性任务。指(强化学习的问题)有无限步骤。
episode - 情节。指从起始状态(或者当前状态)到结束的所有步骤。
tabular method - 列表方法。指使用了数组或者表格存储每个状态(或者状态-行动)的信息(比如:其价值)。

planning method - 计划性方法。需要一个模型,在模型里,可以获得状态价值。比如: 动态规划。
learning method - 学习性方法。不需要模型,通过模拟(或者体验),来计算状态价值。比如:蒙特卡洛方法,时序差分方法。

on-policy method - on-policy方法。评估的策略和优化的策略是同一个。
off-policy method - off-policy方法。评估的策略和优化的策略不是同一个。意味着优化策略使用来自外部的样本数据。
target policy - 目标策略。off-policy方法中需要优化的策略。
behavior policy - 行为策略μ。off-policy方法中提供样本数据的策略。
importance sampling - 行为策略μ的样本数据。
importance sampling rate - 由于目标策略π和行为策略μ不同,导致样本数据在使用上的加权值。
ordinary importance sampling - 无偏见的计算策略价值的方法。
weighted importance sampling - 有偏见的计算策略价值的方法。
MSE(mean square error) - 平均平方误差。
MDP(markov decision process) - 马尔科夫决策过程
The forward view - We decide how to update each state by looking forward to future rewards and states.
例如:

(11)Gt(n)Rt+1+γRt+2++γn1Rt+n+γnv^(St+n,θt+n1), 0tTn

The backward or mechanistic view - Each update depends on the current TD error combined with eligibility traces of past events.
例如:

(12)e00etv^(St,θt)+γλet1

参照

posted @   SNYang  阅读(13908)  评论(4编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
点击右上角即可分享
微信分享提示