2021 年 10月 4 日随笔档案 - 一丨

2021年10月4日

摘要：一、强化学习强化学习是一种无教师学习。理解：系统有学习器和环境两个模块，分时进行学习，在t=i时，向学习器输入xi，选择动作ai可以获得一个ri。此时系统所要选择的是当输入xi时使得ri 最大的动作ai。选择xi的行为便称为策略。 Q-learning算法的优点：不需要对所处的动态环境建模，所以阅读全文

posted @ 2021-10-04 19:45 一丨阅读(552) 评论(1) 推荐(0)

一丨

公告