POLAYOR

基本概念

基本概念

State

si,S={si}

  • 表示状态和状态空间(集合)

Action

ai,A={ai}

  • 表示动作和动作空间(集合)
  • 可用Tabular representation表示

Policy

π,π(ai|sj)=ck

  • 用概率形式表示动作可能的结果
  • 针对一个状态的概率之和为1
  • 可用Tabular representation表示

Deterministic policy (确定性情况)

对于一个状态S_j,一个动作a_i对他的概率为1,其余动作对该状态的概率均为0

Stochastic policy(不确定性情况)

不存在某一个动作对一个状态的概率为1

Reward

  • positive reward -> encouragement
  • negative reward -> punishment

p(r=1|s1,a1)=1&p(r1|s1,a1)=0

Discount rate

γ[0,1)

Discounted return

(1)discounted return=p1+γp2+γ2p3+γ3p4+γ4p5+γ5p6+(2)In the case: p1=0,p2=0,p3=0,p4=1,p5=1,p6=1(3)discounted return=γ3(1+γ+γ2+)(4)=γ311γ.

Roles:

  1. the sum becomes finite;

  2. balance the far and near future rewards:

    • If γ is close to 0, the value of the discounted return is dominated by the rewards obtained in the near future.

    • If γ is close to 1, the value of the discounted return is dominated by the rewards obtained in the far future.

Markov decision process (MDP)

Markov property: memoryless property (不具有记忆性:与历史无关)

p(st+1|at+1,st,,a1,s0)=p(st+1|at+1,st),p(rt+1|at+1,st,,a1,s0)=p(rt+1|at+1,st).

  • Markov process 是带有概率的动作
  • 被赋予了 policy 的 Markov process 是 Markov decision process

posted on   POLAYOR  阅读(30)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示