2018 年 8月随笔档案 - Vpegasus

论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access

摘要：Towards end to end reinforcement learning of dialogue agents for information access KB InfoBot 与知识库交互的多轮对话模型，放弃符号式的查询语句，转而在知识库上使用soft后验分布来寻找概率最大的信息。知阅读全文

posted @ 2018-08-31 10:28 Vpegasus 阅读(603) 评论(0) 推荐(0) 编辑

强化学习（九）：策略梯度

摘要：Policy Gradient Methods 之前学过的强化学习几乎都是所谓的‘行动－价值’方法，也就是说这些方法先是学习每个行动在特定状态下的价值，之后在每个状态，根据当每个动作的估计价值进行选择。这种方法可看成是一种‘间接’的方法，因为强化学习的目标是如何决策，这些方法把每个动作的价值作为指标阅读全文

posted @ 2018-08-13 00:10 Vpegasus 阅读(2737) 评论(0) 推荐(0) 编辑

强化学习（八）：Eligibility Trace

摘要：Eligibility Traces Eligibility Traces是强化学习中很基本很重要的一个概念。几乎所有的TD算法可以结合eligibility traces获得更一般化的算法，并且通常会更有效率。 Eligibility traces可以将TD和Monte Carlo算法统一起来。之阅读全文

posted @ 2018-08-13 00:09 Vpegasus 阅读(1369) 评论(0) 推荐(0) 编辑

强化学习（七）：计划与学习的关系

摘要：Planning and Learning with Tabular Methods 在强化学习中有一种划分方式可以将算法大体分成两大类，一类是需要模型来刻画环境的算法(model based)，如动态编程和启发等；另一类算法则不需要环境模型(model free)，如MC与TD等。model ba 阅读全文

posted @ 2018-08-13 00:06 Vpegasus 阅读(1318) 评论(0) 推荐(0) 编辑

强化学习（六）：n-step Bootstrapping

摘要：n step Bootstrapping n step 方法将Monte Carlo 与 one step TD统一起来。 n step 方法作为 eligibility traces 的引入，eligibility traces 可以同时的在很多时间间隔进行bootstrapping. n ste 阅读全文

posted @ 2018-08-13 00:02 Vpegasus 阅读(936) 评论(0) 推荐(0) 编辑

强化学习（五）：时间差分学习

摘要：Temporal Difference Learning TD在强化学习中处于中心位置，它结合了DP与MC两种思想。如MC, TD可以直接从原始经验中学习，且不需要对环境有整体的认知。也如DP一样，它不需要等到最终结果才开始学习，它Bootstrap，即它的每步估计会部分地基于之前的估计。最简单的阅读全文

posted @ 2018-08-12 23:58 Vpegasus 阅读(1117) 评论(0) 推荐(0) 编辑

强化学习（四）：蒙特卡洛方法

摘要：Ｍonte Carlo Methods MC方法不需要对环境完全了解，只需要可以从环境中采样即可。MC方法基于平均样品收益(Averaging Sample Returns)。通常，MC方法应用于片段式任务(Episodic Tasks)。 Monte Carlo Prediction First 阅读全文

posted @ 2018-08-12 23:56 Vpegasus 阅读(826) 评论(0) 推荐(0) 编辑

强化学习（三）：动态规划

摘要：Dynamic Programming DP指的是一套算法集，这样的算法集在环境模型是一种马尔可夫决策过程且已知的情况下，可以用于计算得到最优的决策。由于要求已知完美的模型且计算量极大，DP的实用性不强，但其理论意义是很重要的。因为在强化学习后面接触的算法都是企图克服完美模型假定与大量计算并得到与D 阅读全文

posted @ 2018-08-12 23:52 Vpegasus 阅读(418) 评论(0) 推荐(0) 编辑

强化学习（二）：马尔可夫决策过程

摘要：Finite Markov Decision Process 马尔可夫决策过程(MDP)是对连续决策进行建模，当前的动作不仅对当前产生影响，而且还会对将来的的情况产生影响，如果从奖励的角度，即MDP不仅影响即时的奖励，而且还会影响将来的长期奖励，因此，MDP需要对即时奖励与长期奖励的获得进行权衡。阅读全文

posted @ 2018-08-12 23:48 Vpegasus 阅读(870) 评论(0) 推荐(0) 编辑

强化学习（一）：引入

摘要：今天开始连载强化学习，这个是以前看Reinforcement Learning: An Introduction 这本书做的笔记，最近发现Richard S. Sutton 和 Andrew G. Barto还在为本书更新，所以就想着把原来的笔记也更新一下，整理然后放在这里。因为是笔记形式，所以这阅读全文

posted @ 2018-08-12 11:11 Vpegasus 阅读(342) 评论(0) 推荐(0) 编辑

自然语言处理（五）时下流行的生成模型

摘要：近期流行的生成模型本次介绍近期大火的三大类生成模型，这三大类模型从三个不同角度切入，居然都能有惊人的效果。而且深入挖掘发现它们有很多相似的地方。 1. Generative Adversarial Nets 生成对抗网络(GANs)是当今最火的生成模型，从2014年 Goodfellow 论文发表阅读全文

posted @ 2018-08-04 15:26 Vpegasus 阅读(4556) 评论(0) 推荐(1) 编辑

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论