基本概念
State
si,S={si}
Action
ai,A={ai}
- 表示动作和动作空间(集合)
- 可用Tabular representation表示
Policy
π,π(ai|sj)=ck
- 用概率形式表示动作可能的结果
- 针对一个状态的概率之和为1
- 可用Tabular representation表示
Deterministic policy (确定性情况)
对于一个状态S_j,一个动作a_i对他的概率为1,其余动作对该状态的概率均为0
Stochastic policy(不确定性情况)
不存在某一个动作对一个状态的概率为1
Reward
- positive reward -> encouragement
- negative reward -> punishment
p(r=−1|s1,a1)=1&p(r≠−1|s1,a1)=0
Discount rate
γ∈[0,1)
Discounted return
discounted return=p1+γp2+γ2p3+γ3p4+γ4p5+γ5p6+…In the case: p1=0,p2=0,p3=0,p4=1,p5=1,p6=1discounted return=γ3(1+γ+γ2+…)=γ311−γ.(1)(2)(3)(4)
Roles:
-
the sum becomes finite;
-
balance the far and near future rewards:
-
If γ is close to 0, the value of the discounted return is dominated by the rewards obtained in the near future.
-
If γ is close to 1, the value of the discounted return is dominated by the rewards obtained in the far future.
Markov decision process (MDP)
Markov property: memoryless property (不具有记忆性:与历史无关)
p(st+1|at+1,st,…,a1,s0)=p(st+1|at+1,st),p(rt+1|at+1,st,…,a1,s0)=p(rt+1|at+1,st).
- Markov process 是带有概率的动作
- 被赋予了 policy 的 Markov process 是 Markov decision process
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人