强化学习读书笔记 - 00 - 术语和数学符号
学习笔记:
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
基本概念
Agent - 本体。学习者、决策者。
Environment - 环境。本体外部的一切。
s s - 状态(state)。一个表示环境的数据。
S , S S , S - 所有状态集合。环境中所有的可能状态。
a a - 行动(action)。本体可以做的动作。
A , A A , A - 所有行动集合。本体可以做的所有动作。
A ( s ) , A ( s ) A ( s ) , A ( s ) - 状态s s 的行动集合。本体在状态s s 下,可以做的所有动作。
r r - 奖赏(reward)。本体在一个行动后,获得的奖赏。
R R - 所有奖赏集合。本体可以获得的所有奖赏。
S t S t - 第t步的状态(state)。t t from 0
A t A t - 第t步的行动(select action)。t t from 0
R t R t - 第t步的奖赏(reward)。t t from 1
G t G t - 第t步的长期回报(return)。t t from 0。 强化学习的目标1:追求最大回报
G t ≐ ∞ ∑ k = 0 γ k R t + k + 1 w h e r e k - the sequence number of an action. γ - discount rate, 0 ⩽ γ ⩽ 1 (1) (1) G t ≐ ∑ k = 0 ∞ γ k R t + k + 1 w h e r e k - the sequence number of an action. γ - discount rate, 0 ⩽ γ ⩽ 1
可以看出,当γ = 0 γ = 0 时,只考虑当前的奖赏。当γ = 1 γ = 1 时,未来的奖赏没有损失。
G ( n ) t G t ( n ) - 第t步的n步回报(n-step return)。。一个回报的近似算法。
G ( n ) t ≐ n ∑ k = 0 γ k R t + k + 1 w h e r e k - the sequence number of an action. γ - discount rate, 0 ⩽ γ ⩽ 1 (2) (2) G t ( n ) ≐ ∑ k = 0 n γ k R t + k + 1 w h e r e k - the sequence number of an action. γ - discount rate, 0 ⩽ γ ⩽ 1
G λ t G t λ - 第t步的λ λ 回报(λ λ -return)。一个回报的近似算法。可以说是G ( n ) t G t ( n ) 的优化。
Continuing tasks: G λ t ≐ ( 1 − λ ) ∞ ∑ n = 1 λ n − 1 G ( n ) t Episodic tasks: G λ t ≐ ( 1 − λ ) T − t − 1 ∑ n = 1 λ n − 1 G ( n ) t + λ T − t − 1 G t w h e r e λ ∈ [ 0 , 1 ] ( 1 − λ ) ∞ ∑ n = 1 λ n − 1 = 1 ( 1 − λ ) T − t − 1 ∑ n = 1 λ n − 1 + λ T − t − 1 = 1 if λ = 0 , become to 1-step TD algorithm if λ = 1 , become to Monte Carlo algorithm (3) (3) Continuing tasks: G t λ ≐ ( 1 − λ ) ∑ n = 1 ∞ λ n − 1 G t ( n ) Episodic tasks: G t λ ≐ ( 1 − λ ) ∑ n = 1 T − t − 1 λ n − 1 G t ( n ) + λ T − t − 1 G t w h e r e λ ∈ [ 0 , 1 ] ( 1 − λ ) ∑ n = 1 ∞ λ n − 1 = 1 ( 1 − λ ) ∑ n = 1 T − t − 1 λ n − 1 + λ T − t − 1 = 1 if λ = 0 , become to 1-step TD algorithm if λ = 1 , become to Monte Carlo algorithm
策略
π π - 策略(policy)。强化学习的目标2:找到最优策略 。
策略规定了状态s s 时,应该选择的行动a a 。
π = [ π ( s 1 ) , ⋯ , π ( s n ) ] (4) (4) π = [ π ( s 1 ) , ⋯ , π ( s n ) ]
π ( s ) π ( s ) - 策略π π 在状态s s 下,选择的行动。
π ∗ π ∗ - 最优策略(optimal policy)。
π ( a | s ) π ( a | s ) - 随机策略 π π 在状态s s 下,选择的行动a a 的概率。
r ( s , a ) r ( s , a ) - 在状态s s 下,选择行动a a 的奖赏。
r ( s , a , s ′ ) r ( s , a , s ′ ) - 在状态s s 下,选择行动a a ,变成(状态s ‘ s ‘ )的奖赏。
p ( s ' , r | s , a ) p ( s ′ , r | s , a ) - (状态s s 、行动a a )的前提下,变成(状态s ‘ s ‘ 、奖赏r r )的概率。
p ( s ' | s , a ) p ( s ′ | s , a ) - (状态s s 、行动a a )的前提下,变成(状态s ‘ s ‘ )的概率。
v π ( s ) v π ( s ) - 状态价值。使用策略π π ,(状态s s 的)长期奖赏G t G t 。
q π ( s , a ) q π ( s , a ) - 行动价值。使用策略π π ,(状态s s ,行动a a 的)长期奖赏G t G t 。
v ∗ ( s ) v ∗ ( s ) - 最佳状态价值。
q ∗ ( s , a ) q ∗ ( s , a ) - 最佳行动价值。
V ( s ) V ( s ) - v π ( s ) v π ( s ) 的集合。
Q ( s , a ) Q ( s , a ) - q π ( s , a ) q π ( s , a ) 的集合。
For continuing tasks: G t ≐ ∞ ∑ k = 0 γ k R t + k + 1 For episodic tasks: G t ≐ T − t − 1 ∑ k = 0 γ k R t + k + 1 v π ( s ) ≐ E π [ G t | S t = s ] = E π [ ∞ ∑ k = 0 γ k R t + k + 1 | S t = s ] q π ( s , a ) ≐ E π [ G t | S t = s , A t = a ] = E π [ ∞ ∑ k = 0 γ k R t + k + 1 | S t = s , A t = a ] v π ( s ) = max a ∈ A q π ( s , a ) π ( s ) = a r g m a x a v π ( s ′ | s , a ) π ( s ) is the action which can get the next state which has the max value. π ( s ) = a r g m a x a q π ( s , a ) π ( s ) is the action which can get the max action value from the current state. (5) (5) For continuing tasks: G t ≐ ∑ k = 0 ∞ γ k R t + k + 1 For episodic tasks: G t ≐ ∑ k = 0 T − t − 1 γ k R t + k + 1 v π ( s ) ≐ E π [ G t | S t = s ] = E π [ ∑ k = 0 ∞ γ k R t + k + 1 | S t = s ] q π ( s , a ) ≐ E π [ G t | S t = s , A t = a ] = E π [ ∑ k = 0 ∞ γ k R t + k + 1 | S t = s , A t = a ] v π ( s ) = max a ∈ A q π ( s , a ) π ( s ) = a r g m a x a v π ( s ′ | s , a ) π ( s ) is the action which can get the next state which has the max value. π ( s ) = a r g m a x a q π ( s , a ) π ( s ) is the action which can get the max action value from the current state.
由上面的公式可以看出:π ( s ) π ( s ) 可以由v π ( s ) v π ( s ) 或者q π ( s , a ) q π ( s , a ) 决定。
Reinforcement Learning ≐ π ∗ ↕ π ∗ ≐ { π ( s ) } , s ∈ S ↕ ⎧ ⎨ ⎩ π ( s ) = a r g m a x a v π ( s ′ | s , a ) , s ′ ∈ S ( s ) , or π ( s ) = a r g m a x a q π ( s , a ) ↕ { v ∗ ( s ) , or q ∗ ( s , a ) ↕ approximation cases: { ^ v ( s , θ ) ≐ θ T ϕ ( s ) , state value function ^ q ( s , a , θ ) ≐ θ T ϕ ( s , a ) , action value function w h e r e θ - value function's weight vector (6) (6) Reinforcement Learning ≐ π ∗ ↕ π ∗ ≐ { π ( s ) } , s ∈ S ↕ { π ( s ) = a r g m a x a v π ( s ′ | s , a ) , s ′ ∈ S ( s ) , or π ( s ) = a r g m a x a q π ( s , a ) ↕ { v ∗ ( s ) , or q ∗ ( s , a ) ↕ approximation cases: { v ^ ( s , θ ) ≐ θ T ϕ ( s ) , state value function q ^ ( s , a , θ ) ≐ θ T ϕ ( s , a ) , action value function w h e r e θ - value function's weight vector
强化学习的目标3:找到最优价值函数v ∗ ( s ) v ∗ ( s ) 或者q ∗ ( s , a ) q ∗ ( s , a ) 。
近似计算
强化学习的目标4:找到最优近似价值函数^ v ( S t , θ t ) v ^ ( S t , θ t ) 或者^ q ( S t , A t , θ t ) q ^ ( S t , A t , θ t ) 。
强化学习的目标5:找到求解θ θ 。
ρ k t ρ t k - importance sampling ratio for time t to time k - 1。
J ( s ) J ( s ) - 状态s s 被访问的步骤序号。
θ θ - 近似价值函数的权重向量。
ϕ ( s ) ϕ ( s ) - 近似价值函数的特征函数。是一个将状态s s 转化成计算向量的方法。这个结果和θ θ 组成近似价值函数。
^ v ( S t , θ t ) v ^ ( S t , θ t ) - 近似状态价值函数。
^ v ≐ θ T ϕ ( s ) (7) (7) v ^ ≐ θ T ϕ ( s )
^ q ( S t , A t , θ t ) q ^ ( S t , A t , θ t ) - 近似行动价值函数。
^ q ≐ θ T ϕ ( s , a ) (8) (8) q ^ ≐ θ T ϕ ( s , a )
e t e t - 第t步资格迹向量(eligibility trace rate)。可以理解为近似价值函数微分的优化值。
e 0 ≐ 0 e t ≐ ∇ ^ v ( S t , θ t ) + γ λ e t − 1 θ t ≐ θ t + α δ t e t (9) (9) e 0 ≐ 0 e t ≐ ∇ v ^ ( S t , θ t ) + γ λ e t − 1 θ t ≐ θ t + α δ t e t
α α - 学习步长。α ∈ ( 0 , 1 ) α ∈ ( 0 , 1 )
γ γ - 未来回报的折扣率(discount rate)。γ ∈ [ 0 , 1 ] γ ∈ [ 0 , 1 ]
λ λ - λ λ -return中的比例参数。λ ∈ [ 0 , 1 ] λ ∈ [ 0 , 1 ]
h(horizon)- 水平线h表示on-line当时可以模拟的数据步骤。t < h ≤ T t < h ≤ T
老O虎O机问题
q ∗ ( a ) q ∗ ( a ) - 行动 a 的真实奖赏(true value)。这个是(实际中)不可知的。期望计算的结果收敛(converge)与它。
N t ( a ) N t ( a ) - 在第t步之前,行动a被选择的次数。
Q t ( a ) Q t ( a ) - 行动 a 在第t步前(不包括第t步)的实际平均奖赏。
Q t ( a ) = ∑ t − 1 i = 1 R i × 1 A i = a N t ( a ) (10) (10) Q t ( a ) = ∑ i = 1 t − 1 R i × 1 A i = a N t ( a )
H t ( a ) H t ( a ) - 对于行动a的学习到的倾向(reference)。
ϵ ϵ - 在ε-贪婪策略中,采用随机行动的概率[ 0 , 1 ) [ 0 , 1 ) 。
通用数学符号
≐ ≐ - 定义上的等价关系。
E [ X ] E [ X ] - X X 的期望值。
P r { X = x } P r { X = x } - 变量X X 值为x x 的概率。
v ↦ g v ↦ g - v渐近g。
v ≈ g v ≈ g - v约等于g。
R R - 实数集合。
R n R n - n个元素的实数向量。
m a x a ∈ A F ( a ) m a x a ∈ A F ( a ) - 在所有的行动中,求最大值F ( a ) F ( a ) 。
a r g m a x c F ( c ) a r g m a x c F ( c ) - 求当F(c)为最大值时,参数c c 的值。
术语
episodic tasks - 情节性任务。指(强化学习的问题)会在有限步骤下结束。
continuing tasks - 连续性任务。指(强化学习的问题)有无限步骤。
episode - 情节。指从起始状态(或者当前状态)到结束的所有步骤。
tabular method - 列表方法。指使用了数组或者表格存储每个状态(或者状态-行动)的信息(比如:其价值)。
planning method - 计划性方法。需要一个模型,在模型里,可以获得状态价值。比如: 动态规划。
learning method - 学习性方法。不需要模型,通过模拟(或者体验),来计算状态价值。比如:蒙特卡洛方法,时序差分方法。
on-policy method - on-policy方法。评估的策略和优化的策略是同一个。
off-policy method - off-policy方法。评估的策略和优化的策略不是同一个。意味着优化策略使用来自外部的样本数据。
target policy - 目标策略。off-policy方法中需要优化的策略。
behavior policy - 行为策略μ μ 。off-policy方法中提供样本数据的策略。
importance sampling - 行为策略μ μ 的样本数据。
importance sampling rate - 由于目标策略π π 和行为策略μ μ 不同,导致样本数据在使用上的加权值。
ordinary importance sampling - 无偏见的计算策略价值的方法。
weighted importance sampling - 有偏见的计算策略价值的方法。
MSE(mean square error) - 平均平方误差。
MDP(markov decision process) - 马尔科夫决策过程
The forward view - We decide how to update each state by looking forward to future rewards and states.
例如:
G ( n ) t ≐ R t + 1 + γ R t + 2 + ⋯ + γ n − 1 R t + n + γ n ^ v ( S t + n , θ t + n − 1 ) , 0 ≤ t ≤ T − n (11) (11) G t ( n ) ≐ R t + 1 + γ R t + 2 + ⋯ + γ n − 1 R t + n + γ n v ^ ( S t + n , θ t + n − 1 ) , 0 ≤ t ≤ T − n
The backward or mechanistic view - Each update depends on the current TD error combined with eligibility traces of past events.
例如:
e 0 ≐ 0 e t ≐ ∇ ^ v ( S t , θ t ) + γ λ e t − 1 (12) (12) e 0 ≐ 0 e t ≐ ∇ v ^ ( S t , θ t ) + γ λ e t − 1
参照
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具