2024 年 5月 21 日随笔档案 - 郝hai

2024年5月21日

摘要： Q-learning是一种基于值迭代的强化学习（Reinforcement Learning, RL）算法，主要用于在给定环境中学习一个策略，使得智能体（agent）能够在与环境交互的过程中获得最大累计奖励。它通过学习一个状态-动作值函数（Q函数）来指导智能体的行为选择，适用于各种离散状态和动作的任阅读全文

posted @ 2024-05-21 18:19 郝hai 阅读(1456) 评论(0) 推荐(0) 编辑

haohai9309

格物致知，知行合一！

公告