随笔档案「2021年2月10日」：寒假自学2.10 ... - 帅气的小土豆

2021年2月10日

摘要： Q-Learning算法 Q-learning要解决的是这样的问题：一个能感知环境的自治agent，怎样通过学习选择能达到其目标的最优动作。强化学习目的是构造一个控制策略，使得Agent行为性能达到最大。Agent从复杂的环境中感知信息，对信息进行处理。Agent通过学习改进自身的性能并选择行为，阅读全文

posted @ 2021-02-10 19:14 帅气的小土豆阅读(49) 评论(0) 推荐(0)

帅气的小土豆

公告