摘要:
1. state:状态,可以是机器人的位置,速度,加速度等 2. action:对于每一个状态,可能的动作 3. state transition:状态转移 3.1 state transition probability: 4. policy:告诉agent在这个状态应该采用哪个action 5. 阅读全文
摘要:
![](https://img2024.cnblogs.com/blog/1746850/202411/1746850-20241105093751819-829769841.jpg) ![](https://img2024.cnblogs.com/blog/1746850/202411/1746850-20241105093753475-478576475.jpg) ![](https://im 阅读全文