2019 年 3月 22 日随笔档案 - 慕云深

2019年3月22日

摘要： what: QLearning是强化学习算法中value-based的算法，Q即为Q（s,a）就是在某一时刻的 s 状态下(s∈S)，采取动作a (a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想就是将State与Action构建成一张阅读全文

posted @ 2019-03-22 21:10 慕云深阅读(1759) 评论(0) 推荐(0) 编辑

慕云深

公告