摘要: Experiments 我们首先考虑四个房间域中的导航任务(Sutton、Precup和Singh 1999)。我们的目标是评估一组完全自主学习的option从环境的突然变化中恢复过来的能力。(Sutton,Precup,and Singh 1999)对一组预先指定的选项提出了一个类似的实验;我们的 阅读全文
posted @ 2020-07-28 12:37 米么裤 阅读(658) 评论(1) 推荐(0) 编辑
摘要: The option-critic architecture论文翻译与理解 阅读全文
posted @ 2020-07-24 23:34 米么裤 阅读(1402) 评论(0) 推荐(0) 编辑