摘要:
**发表时间:**2018(ICML2018) **文章要点:**这篇文章用saliency map的方式来做RL agent的可视化,目的就是想分析一下agent做某个动作的时候到底关注的是输入的哪个部分,这样可以对RL的agent有一定的可解释性。比如下图这个效果 其中蓝色是policy关注的点 阅读全文
摘要:
**发表时间:**2016(AAAI2016) **文章要点:**通常大家做offline评估的时候都是去评估一个训好的fixed的策略,这篇文章就说我想在offline的setting 下去评估一个算法好不好。根据这个出发点,大致思路是先根据收集的data去弄一个evaluator出来,然后RL算 阅读全文