2024 年 12月 18 日随笔档案 - GraphL

2024年12月18日

摘要：你描述的流程已经很接近了 SUMO 和深度强化学习（DQN）结合的一个典型工作流程。我可以详细解释一下 SUMO 在仿真优化 DQN 模型时的具体步骤，以及一个 Epoch 是如何设置的。 SUMO仿真与DQN模型结合流程初始化：你首先需要定义一个交通环境，通常使用 SUMO 来仿真。这个环境包阅读全文

posted @ 2024-12-18 22:13 GraphL 阅读(49) 评论(0) 推荐(0) 编辑

Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning

摘要：这段内容主要讨论了Grounded Action Transformation (GAT) 框架的逻辑和目标。GAT 是一种用于强化学习中仿真环境和真实环境动力学（transition dynamics）对齐的方法。以下是详细解读：整体背景与问题挑战：仿真环境 $ E_{sim} $ 和阅读全文

posted @ 2024-12-18 18:11 GraphL 阅读(18) 评论(0) 推荐(0) 编辑

强化学习理解

摘要：在深度Q网络（DQN）中，Q值并不能直接被理解为策略（policy），而是行动价值函数（action-value function）的一种估计。以下是一些关键点帮助你理解：什么是Q值？ Q(s, a) 表示在状态 $ s $ 采取动作 $ a $ 后，基于当前策略获得的累计奖励的期望值。在D 阅读全文

posted @ 2024-12-18 16:19 GraphL 阅读(15) 评论(0) 推荐(0) 编辑

loss计算的bug

摘要：评估。原来采用的是sum的方式，现在改成均值 This is a very insightful observation. Looking at the evaluate.py code, specifically in the drop_head_tail function: def drop_h 阅读全文

posted @ 2024-12-18 02:10 GraphL 阅读(3) 评论(0) 推荐(0) 编辑

csjywu01

公告