上一页 1 2 3 4 5 6 7 ··· 14 下一页
摘要: 在强化学习(五)用时序差分法(TD)求解中,我们讨论了用时序差分来求解强化学习预测问题的方法,但是对控制算法的求解过程没有深入,本文我们就对时序差分的在线控制算法SARSA做详细的讨论。 SARSA这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部分。 1. SARSA算法的引入 S 阅读全文
posted @ 2018-09-09 19:30 刘建平Pinard 阅读(59320) 评论(87) 推荐(10) 编辑
摘要: 在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化 阅读全文
posted @ 2018-08-24 18:23 刘建平Pinard 阅读(75593) 评论(131) 推荐(16) 编辑
摘要: 在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型$P$都无法知道,这时动态规划法根本没法 阅读全文
posted @ 2018-08-17 18:04 刘建平Pinard 阅读(71343) 评论(108) 推荐(17) 编辑
摘要: 在强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。 动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲 阅读全文
posted @ 2018-08-12 20:36 刘建平Pinard 阅读(72289) 评论(103) 推荐(22) 编辑
摘要: 在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process,以下简称MDP)来简化强化学习的建模。 MDP 阅读全文
posted @ 2018-08-05 18:09 刘建平Pinard 阅读(155879) 评论(142) 推荐(26) 编辑
摘要: 从今天开始整理强化学习领域的知识,主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇,希望写完后自己的强化学习碎片化知识可以得到融会贯通,也希望可以帮到更多的人,毕竟目前系统的讲解强化学习的中文资料不太多。 第一篇会从强化学习的基本概念讲起,对应Sutto 阅读全文
posted @ 2018-07-29 18:53 刘建平Pinard 阅读(150042) 评论(75) 推荐(35) 编辑
摘要: 异常点检测,有时也叫离群点检测,英文一般叫做Novelty Detection或者Outlier Detection,是比较常见的一类非监督学习算法,这里就对异常点检测算法做一个总结。 1. 异常点检测算法使用场景 什么时候我们需要异常点检测算法呢?常见的有三种情况。一是在做特征工程的时候需要对异常 阅读全文
posted @ 2018-07-15 19:19 刘建平Pinard 阅读(51484) 评论(78) 推荐(11) 编辑
摘要: 在用PMML实现机器学习模型的跨平台上线中,我们讨论了使用PMML文件来实现跨平台模型上线的方法,这个方法当然也适用于tensorflow生成的模型,但是由于tensorflow模型往往较大,使用无法优化的PMML文件大多数时候很笨拙,因此本文我们专门讨论下tensorflow机器学习模型的跨平台上 阅读全文
posted @ 2018-07-01 21:42 刘建平Pinard 阅读(14082) 评论(18) 推荐(2) 编辑
摘要: 在机器学习用于产品的时候,我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型,但是有时候其他的产品和项目想把这个模型集成进去,但是这些产品很多只支持某些特定的生产环境比如Java,为了上一个机器学习模型去大动干戈修改环境配置很不划算,此时我们就可以考虑用预测模型标 阅读全文
posted @ 2018-06-24 15:18 刘建平Pinard 阅读(42772) 评论(79) 推荐(15) 编辑
摘要: 在贝叶斯个性化排序(BPR)算法小结中,我们对贝叶斯个性化排序(Bayesian Personalized Ranking, 以下简称BPR)的原理做了讨论,本文我们将从实践的角度来使用BPR做一个简单的推荐。由于现有主流开源类库都没有BPR,同时它又比较简单,因此用tensorflow自己实现一个 阅读全文
posted @ 2018-06-10 17:29 刘建平Pinard 阅读(21116) 评论(46) 推荐(5) 编辑
上一页 1 2 3 4 5 6 7 ··· 14 下一页