2023 年 4月 22 日随笔档案 - N3ptune

2023年4月22日

摘要： QLearning方法有着明显的局限性，当状态和动作空间是离散的且维数不高时可使用Q-Table存储每个状态动作的Q值，而当状态和动作时高维连续时，该方法便不太适用。可以将Q-Table的更新问题变成一个函数拟合问题，通过更新参数θ使得Q函数逼近最优Q值。DL是解决参数学习的有效方法，可以通过引进D 阅读全文

posted @ 2023-04-22 22:09 N3ptune 阅读(3107) 评论(1) 推荐(1) 编辑

N3ptune

独立之精神，自由之思想

公告