Vpegasus - 博客园

2018年8月12日

摘要： Temporal Difference Learning TD在强化学习中处于中心位置，它结合了DP与MC两种思想。如MC, TD可以直接从原始经验中学习，且不需要对环境有整体的认知。也如DP一样，它不需要等到最终结果才开始学习，它Bootstrap，即它的每步估计会部分地基于之前的估计。最简单的阅读全文

posted @ 2018-08-12 23:58 Vpegasus 阅读(1178) 评论(0) 推荐(0)

强化学习（四）：蒙特卡洛方法

摘要：Ｍonte Carlo Methods MC方法不需要对环境完全了解，只需要可以从环境中采样即可。MC方法基于平均样品收益(Averaging Sample Returns)。通常，MC方法应用于片段式任务(Episodic Tasks)。 Monte Carlo Prediction First 阅读全文

posted @ 2018-08-12 23:56 Vpegasus 阅读(887) 评论(0) 推荐(0)

强化学习（三）：动态规划

摘要： Dynamic Programming DP指的是一套算法集，这样的算法集在环境模型是一种马尔可夫决策过程且已知的情况下，可以用于计算得到最优的决策。由于要求已知完美的模型且计算量极大，DP的实用性不强，但其理论意义是很重要的。因为在强化学习后面接触的算法都是企图克服完美模型假定与大量计算并得到与D 阅读全文

posted @ 2018-08-12 23:52 Vpegasus 阅读(492) 评论(0) 推荐(0)

强化学习（二）：马尔可夫决策过程

摘要： Finite Markov Decision Process 马尔可夫决策过程(MDP)是对连续决策进行建模，当前的动作不仅对当前产生影响，而且还会对将来的的情况产生影响，如果从奖励的角度，即MDP不仅影响即时的奖励，而且还会影响将来的长期奖励，因此，MDP需要对即时奖励与长期奖励的获得进行权衡。阅读全文

posted @ 2018-08-12 23:48 Vpegasus 阅读(937) 评论(0) 推荐(0)

强化学习（一）：引入

摘要：今天开始连载强化学习，这个是以前看Reinforcement Learning: An Introduction 这本书做的笔记，最近发现Richard S. Sutton 和 Andrew G. Barto还在为本书更新，所以就想着把原来的笔记也更新一下，整理然后放在这里。因为是笔记形式，所以这阅读全文

posted @ 2018-08-12 11:11 Vpegasus 阅读(367) 评论(0) 推荐(0)

2018年8月4日

自然语言处理（五）时下流行的生成模型

摘要：近期流行的生成模型本次介绍近期大火的三大类生成模型，这三大类模型从三个不同角度切入，居然都能有惊人的效果。而且深入挖掘发现它们有很多相似的地方。 1. Generative Adversarial Nets 生成对抗网络(GANs)是当今最火的生成模型，从2014年 Goodfellow 论文发表阅读全文

posted @ 2018-08-04 15:26 Vpegasus 阅读(4651) 评论(0) 推荐(1)

2018年5月5日

论文选读三 QANet

摘要： Reading Comprehension(RC) 阅读理解对于机器来说，是一项非常艰巨的任务。google提出QANet，目前（2018 0505）一直是SQuAD的No. 1. 今天简单地与大家分享一下。 SQuAD Stanford Question Answering Dataset ( 阅读全文

posted @ 2018-05-05 09:33 Vpegasus 阅读(3260) 评论(0) 推荐(0)

2018年1月20日

皮质学习 HTM 知多少

摘要： Hierarchical Temporal Memeory 0.1 —— Pegasus 2017 06 22 [TOC] 引言 Hierarchical Temporal Memeory(HTM,层级时间记忆，皮质学习) 是一种全新的机器学习算法，模拟新大脑皮质（neocortex）进行信息处阅读全文

posted @ 2018-01-20 17:08 Vpegasus 阅读(5014) 评论(0) 推荐(0)

机器学习七参数估计方法

摘要：参数估计方法推断问题中, 一般会碰到两个问题: 1.参数估计问题: 已知观测数据集 X, 估计其分布参数 $\theta$, 也就是$p(\theta|X)$ 2. 预测或回归问题: 已知观测数据集 X, 推测新观测数据 $\tilde{x}$, 也就是计算$p(\tilde{x}| X )$ 阅读全文

posted @ 2018-01-20 17:01 Vpegasus 阅读(654) 评论(0) 推荐(0)

自然语言处(四) 词向量编码 word2vec

摘要： word2vec word2vec 是Mikolov 在Bengio Neural Network Language Model(NNLM)的基础上构建的一种高效的词向量训练方法。词向量词向量(word embedding ) 是词的一种表示，是为了让计算机能够处理的一种表示。因为目前的计算机阅读全文

posted @ 2018-01-20 16:51 Vpegasus 阅读(4879) 评论(0) 推荐(0)