随笔分类 - Reinforcement Learning
摘要:1. Fine-Tuning Language Models from Human Preferences reward model:774M参数量的GPT-2,先进行了有监督训练 训练loss: 其中r(x,y)代表reward model,x代表输入或者prompt,y代表输出或者reponse
阅读全文
摘要:1.Le, Tuan Anh, et al. "Auto-encoding sequential monte carlo." arXiv preprint arXiv:1705.10306 (2017).
阅读全文
摘要:1. http://rll.berkeley.edu/adversarial/ Adversarial Attacks on Neural Network Policies 就是对test时候的policy进行构造对抗样本,方法还是用的分类对抗样本的方法,对于DQN,把Q value做个softma
阅读全文
摘要:简介: PGMRL: PGMRL就是把RL问题建模成一个概率图模型,如下图所示: 然后通过variational inference的方法进行学习: PGMRL给RL问题的表示给了一个范例,对解决很多RL新问题提供了一种思路和工具。 Bayesian RL: 主要是对RL的reward functi
阅读全文
摘要:Policy Gradient是区别于Q-Learning为代表的value based的方法。policy gradient又可以叫reinforce算法(Williams, 1992)。 如今的ACTOR-CRITIC也就是基于policy gradient。该方法不能制表,只能对policy进
阅读全文
摘要:一、Q-Learning: 例子:https://www.zhihu.com/question/26408259/answer/123230350 http://ml.cs.tsinghua.edu.cn:5000/demos/flappybird/ 以上为Q-Learning的伪代码 Q(S,A)
阅读全文
摘要:github: https://github.com/nsavinov/SPTM
阅读全文
摘要:作者用action, reward, state等当做lalbel,进行有监督训练。
阅读全文
摘要:一篇用deep neural network做POMDP的论文
阅读全文
摘要:任务是地图里面导航,让agent从起始点到达指定位置。 用了supervised learning + reinforcement learning + lstm 用supervised learning当做辅助训练,加速rl训练,用lstm当做memory。实验表明depth constructi
阅读全文
摘要:论文不同点: (1)用两套网络分别实现移动和射击。 (2)使用LSTM来处理不完全信息。 疑问: (1)为什么对于射击使用RNN,对导航却没有使用RNN。一般来说,当我们看见视野里面有敌人的时候,我们可以立即进行射击,似乎不太需要长久的历史信息,再官方给出的视频中,我也没发现RNN有什么好处。另一方
阅读全文
摘要:解决办法:pip install box2d-py
阅读全文
摘要:Stadie, Bradly C., Sergey Levine, and Pieter Abbeel. "Incentivizing exploration in reinforcement learning with deep predictive models." arXiv preprint
阅读全文
摘要:1.Delayed, sparse reward(feedback), Long-term planning Hierarchical Deep Reinforcement Learning, Sub-goal, SAMDP, optoins, Thompson sampling, Boltzman
阅读全文
摘要:Zahavy, Tom, Nir Ben-Zrihem, and Shie Mannor. "Graying the black box: Understanding DQNs." International Conference on Machine Learning. 2016. 这篇论文想要做
阅读全文
摘要:Heinrich, Johannes, and David Silver. "Deep reinforcement learning from self-play in imperfect-information games." arXiv preprint arXiv:1603.01121(201
阅读全文
摘要:Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016. DeepMind rl系列文章之一。
阅读全文
摘要:Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489. 推荐PPT:https://wenku.baidu
阅读全文