2023 年 3月 24 日随笔档案 - stardsd

2023年3月24日

摘要： Copy-on-write（写时复制）是一种资源管理技术，用于实现可修改资源的“复制”或“拷贝”操作。当父进程创建子进程时，这两个进程最初将共享内存中的相同页面，并将这些共享页面标记为写时复制。这意味着如果任何一个进程尝试修改共享页面，则只会创建这些页面的副本，并且该进程将在副本上进行修改，而不会影阅读全文

posted @ 2023-03-24 16:27 stardsd 阅读(227) 评论(0) 推荐(0) 编辑

行为策略与目标策略、On-policy与Off-policy

摘要：在强化学习中，行为策略和目标策略的区别在于，行为策略是智能体在环境中实际采取的策略，而目标策略是智能体希望学习的最优策略。¹ 行为策略和目标策略的差异会影响到强化学习算法的选择和性能。¹ 行为策略和目标策略都是强化学习中的重要概念。 (1) 强化学习中，确定性策略和随机策略的区别，以及各自经典的算法阅读全文

posted @ 2023-03-24 15:55 stardsd 阅读(951) 评论(0) 推荐(0) 编辑

A3C——异步A2C算法

摘要： A2C算法是一种强化学习算法，全称为Advantage Actor-Critic算法。它结合了演员评论算法和优势函数，用于学习策略以最大化预期奖励。在A2C算法中，有两个神经网络：一个用于演员，一个用于评论家。演员网络基于当前状态选择动作，评论家网络评估当前状态的价值。优势函数用于估计某个动作相对于阅读全文

posted @ 2023-03-24 14:42 stardsd 阅读(655) 评论(0) 推荐(0) 编辑

赏月斋

慎终如始宁静致远

公告

赏月斋

慎终如始 宁静致远

公告

慎终如始宁静致远