2019 年 2月 23 日随笔档案 - zqlucky

2019年2月23日

摘要： Q学习动作探索策略中的ep-greepy,以ep的概率进行随机探索，以1-ep的概率以最大值策略进行开发，因为设定的迭代次数比较多，所以肯定存在一定的次数去搜索不同的动作。 1）Python版本 b站上的学习教程https://blog.csdn.net/qq_36124802/article/de 阅读全文

posted @ 2019-02-23 10:21 zqlucky 阅读(1438) 评论(0) 推荐(0) 编辑

zqlucky

公告