2014 年 1月随笔档案 - Kintoki

增强学习（三）----- MDP的动态规划解法

摘要：上一篇我们已经说到了，增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略，使其在任意初始状态下，都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢？基本的解法有三种：动态规划法(dynamic program 阅读全文

posted @ 2014-01-20 10:26 Kintoki 阅读(42261) 评论(10) 推荐(9) 编辑

增强学习（二）----- 马尔可夫决策过程MDP

摘要：1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可阅读全文

posted @ 2014-01-14 00:21 Kintoki 阅读(97573) 评论(22) 推荐(28) 编辑

增强学习（一） ----- 基本概念

摘要：机器学习算法大致可以分为三种： 1. 监督学习(如回归，分类) 2. 非监督学习(如聚类，降维) 3. 增强学习什么是增强学习呢？增强学习（reinforcementlearning, RL）又叫做强化学习，是近年来机器学习和智能控制领域的主要方法之一。定义: Reinforcement le 阅读全文

posted @ 2014-01-11 21:44 Kintoki 阅读(43204) 评论(0) 推荐(5) 编辑

Loading

Kintoki

关注机器学习，数据挖掘，人工智能

01 2014 档案

公告