09 2023 档案

Deep Exploration via Bootstrapped DQN
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! NIPS 2016 Abstract 有效的探索仍然是强化学习(RL)的主要挑战。常见的探索抖动策略,如ε-贪婪,不进行时间扩展(或深度)探索;这可能导致数据需求呈指数级增长。然而,在复杂的环境中,大多数用于统计有效RL的算法在计算上是不 阅读全文

posted @ 2023-09-25 11:38 穷酸秀才大草包 阅读(385) 评论(0) 推荐(0)

Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Proceedings of the 36th International Conference on Machine Learning, PMLR 97:5331-5340, 2019 Abstract 深度强化学习算法需要大量的经验来 阅读全文

posted @ 2023-09-19 15:23 穷酸秀才大草包 阅读(101) 评论(0) 推荐(0)

Meta-Reinforcement Learning of Structured Exploration Strategies
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 32nd Conference on Neural Information Processing Systems (NeurIPS 2018), Montréal, Canada. Abstract 探索是强化学习(RL)中的一个基本挑战 阅读全文

posted @ 2023-09-19 14:42 穷酸秀才大草包 阅读(171) 评论(0) 推荐(0)

Varibad:A very good method for bayes-adaptive deep rl via meta-learning
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Published as a conference paper at ICLR 2020 ABSTRACT 在未知环境中权衡探索和开发是在学习过程中实现期望回报最大化的关键。贝叶斯最优策略不仅以环境状态为条件,而且以智能体对环境的不确定性 阅读全文

posted @ 2023-09-18 11:01 穷酸秀才大草包 阅读(142) 评论(0) 推荐(0)

Training language models to follow instructions with human feedback
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! NeurIPS 2022 Abstract 将语言模型做得更大并不能从本质上使它们更好地遵循用户的意图。例如,大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。换句话说,这些模型与其用户不一致。在本文中,我们展示了一种通过对人类反馈 阅读全文

posted @ 2023-09-14 15:06 穷酸秀才大草包 阅读(416) 评论(0) 推荐(0)

Spikformer: When Spiking Neural Network Meets Transformer
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Published as a conference paper at ICLR 2023(同大组工作) ABSTRACT 我们考虑了两种生物学合理的结构,脉冲神经网络(SNN)和自注意机制。前者为深度学习提供了一种节能且事件驱动的范式,而 阅读全文

posted @ 2023-09-07 20:15 穷酸秀才大草包 阅读(1460) 评论(0) 推荐(0)

导航