2020 年 4月 25 日随笔档案 - 吕汉鸿

2020年4月25日

摘要：前面我们介绍了Q-learning算法的原理，现在我们就一步一步地用实际数值演示一下，给大家一个更直观的认识。首先我们选择Gamma值的初值为0.8，agent的初始位置是房间1，前面显示的R矩阵不变，Q矩阵所有值都被初始化为0。由于起始位置是房间1，所以我们先看R矩阵的第二行，其中有2个可能，阅读全文

posted @ 2020-04-25 03:18 吕汉鸿阅读(1531) 评论(0) 推荐(0) 编辑

Once in a life time 机器学习/Java

公告