Loading

01 2014 档案

摘要:上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。 那么如何求解最优策略呢?基本的解法有三种: 动态规划法(dynamic program 阅读全文
posted @ 2014-01-20 10:26 Kintoki 阅读(42261) 评论(10) 推荐(9) 编辑
摘要:1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。 马尔可 阅读全文
posted @ 2014-01-14 00:21 Kintoki 阅读(97573) 评论(22) 推荐(28) 编辑
摘要:机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习 什么是增强学习呢? 增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。 定义: Reinforcement le 阅读全文
posted @ 2014-01-11 21:44 Kintoki 阅读(43204) 评论(0) 推荐(5) 编辑