摘要: Q学习动作探索策略中的ep-greepy,以ep的概率进行随机探索,以1-ep的概率以最大值策略进行开发,因为设定的迭代次数比较多,所以肯定存在一定的次数去搜索不同的动作。 1)Python版本 b站上的学习教程https://blog.csdn.net/qq_36124802/article/de 阅读全文
posted @ 2019-02-23 10:21 zqlucky 阅读(1438) 评论(0) 推荐(0) 编辑