摘要: 强化学习调参技巧二:DDPG、TD3、SAC算法为例:先写一个简化版的训练环境。把任务难度降到最低,确保一定能正常训练。记录正常训练的智能体的分数,与随机动作、传统算法得到的分数做比较。 DRL算法的分数应该明显高于随机动作(随机执行动作)。DRL算法不应该低于传统算法的分数。如果没有传统算法,那么也需要自己写一个局部最优的算法 阅读全文
posted @ 2022-12-15 14:08 汀、人工智能 阅读(1475) 评论(0) 推荐(1) 编辑