2022 年 12月 15 日随笔档案 - 汀、人工智能

2022年12月15日

摘要：强化学习调参技巧二：DDPG、TD3、SAC算法为例：先写一个简化版的训练环境。把任务难度降到最低，确保一定能正常训练。记录正常训练的智能体的分数，与随机动作、传统算法得到的分数做比较。 DRL算法的分数应该明显高于随机动作（随机执行动作）。DRL算法不应该低于传统算法的分数。如果没有传统算法，那么也需要自己写一个局部最优的算法阅读全文

posted @ 2022-12-15 14:08 汀、人工智能阅读(1475) 评论(0) 推荐(1) 编辑

✨汀、

公告