摘要: 前面我们介绍了Q-learning算法的原理,现在我们就一步一步地用实际数值演示一下,给大家一个更直观的认识。 首先我们选择Gamma值的初值为0.8,agent的初始位置是房间1,前面显示的R矩阵不变,Q矩阵所有值都被初始化为0。 由于起始位置是房间1,所以我们先看R矩阵的第二行,其中有2个可能, 阅读全文
posted @ 2020-04-25 03:18 吕汉鸿 阅读(1531) 评论(0) 推荐(0) 编辑
Save on your hotel - hotelscombined.com