摘要:
如果没有质量更好的第二季,宁愿它就这样停在第一季;已经很好了,已经很完美了。 阅读全文
摘要:
critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。 阅读全文
摘要:
Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 帮助很小,最终导致 feedback-efficiency 低下。 阅读全文