2019年2月28日

机器学习工程师 - Udacity 强化学习 Part Eight

摘要: 八、深度Q-学习 1.神经网络作为值函数状态值函数将任何状态 s 映射到实数,表示根据当前策略 π 该状态的重要性。如果我们使用神经网络估算该函数,则输入需要以向量的形式提供进来。我们已经知道如何使用特征转换 x 执行这一步。现在输入可以经过神经网络。如果它旨在输出一个实数,即网络估算的值,那就与利 阅读全文

posted @ 2019-02-28 20:22 paulonetwo 阅读(326) 评论(0) 推荐(0) 编辑

导航