摘要: 作者|Nathan Lambert 编译|VK 来源|Towards Data Science 研究价值迭代和策略迭代。 本文着重于对基本的MDP进行理解(在此进行简要回顾),将其应用于基本的强化学习方法。我将重点介绍的方法是"价值迭代"和"策略迭代"。这两种方法是Q值迭代的基础,它直接导致Q-Le 阅读全文
posted @ 2020-07-19 19:53 人工智能遇见磐创 阅读(771) 评论(0) 推荐(0) 编辑
摘要: 作者|GUEST 编译|VK 来源|Analytics Vidhya 介绍 我们生活在数字技术的时代。你上次走进一家没有数字交易的商店是什么时候? 这些数字交易技术已经迅速成为我们日常生活的一个关键部分。 不仅仅是在个人层面,这些数字技术是每个金融机构的核心。通过多种可能的选择(如网上银行、ATM、 阅读全文
posted @ 2020-07-19 13:27 人工智能遇见磐创 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 作者|Nathan Lambert 编译|VK 来源|Towards Data Science 1.监督学习 现代强化学习几乎完全集中在深度强化学习上。深度强化学习中的“深”一词意味着在算法的核心方面使用神经网络。神经网络在学习过程中进行一些高维近似。话虽如此,该模型并不需要具有许多层和特征,这是一 阅读全文
posted @ 2020-07-19 00:17 人工智能遇见磐创 阅读(417) 评论(0) 推荐(0) 编辑