2023 年 10月 30 日随笔档案 - deephub

2023年10月30日

摘要：强化学习(RL)是一种机器学习方法，它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励，因采取行动导致预期结果而受到惩罚。随着时间的推移，代理学会采取行动，使其预期回报最大化。 RL代理通常使用马尔可夫决策过程(MDP)进行训练，马尔可夫决策过程是为顺序决策问题建模的阅读全文

posted @ 2023-10-30 09:25 deephub 阅读(20) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告