Blueherb In solitude, where we are least alone
摘要: Q-Learning算法 Q-learning要解决的是这样的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。 强化学习目的是构造一个控制策略,使得Agent行为性能达到最大。Agent从复杂的环境中感知信息,对信息进行处理。Agent通过学习改进自身的性能并选择行为, 阅读全文
posted @ 2021-02-10 19:14 帅气的小土豆 阅读(26) 评论(0) 推荐(0) 编辑