摘要:
上篇总结了 Model Free Predict 问题及方法,本文内容介绍 Model Free Control 方法,即 "Optimise the value function of an unknown MDP"。 在这里说明下,Model Free Predict/Control 不仅适用于 阅读全文
摘要:
上篇文章介绍了 Model based 的通用方法——动态规划,本文内容介绍 Model Free 情况下 Prediction 问题,即 "Estimate the value function of an unknown MDP"。 Model based:MDP已知,即转移矩阵和奖赏函数均已知 阅读全文
摘要:
好久没有更新blog了,最近抽时间看了Nielsen的《Neural Networks and Deep Learning》感觉小有收获,分享给大家。 了解深度学习的同学可能知道,目前深度学习面临的一个问题就是在网络训练的过程中存在梯度消失问题(vanishing gradient problem) 阅读全文