增强式学习

非常好的一个导入例子

如图在每一个格子中我们都有四种移动策略（action:U,D,L,R）,但理想总是美好的，现实总是骨干的。有些时候，我们想着的方向并不一定是我们移动的方向，所以我们引入概率。正确移动的概率为0.8，错误移动的概率各为0.1（不允许倒退）

MArkov决策过程（MDP）：

特性—无需关注过去的事情

特性二规则不变

状态、奖励、行动、转移（折扣）

摩尔定理

it will learn and it will use what it learns 不断学习，并运用所学

学到了哪些：

求解MDP

Q-learning: converage,

explaration-exploitation:learn&use!

approaches to reinforcement-learning

感觉机器学习真的太美妙了，学着学着，就会涉及到一些哲学问题，而人生貌似瞬间就被阐明，开阔了许多。

posted @ 2016-06-04 20:23 python挖掘阅读(339) 评论(0) 收藏举报

刷新页面返回顶部

come_on