GraphL - 博客园

2024年12月23日

摘要： Road 64: Edge ID: 661592211 Direction: From 10755227107 to 6193597900 Shape: 450.32,0.43 463.33,1.94 476.75,2.39 485.29,1.81 524.40,0.00 Lane ID: 6615 阅读全文

posted @ 2024-12-23 22:01 GraphL 阅读(140) 评论(0) 推荐(0)

Uncertainty-aware Grounded Action Transformation towards Sim-to-Real Transfer for Traffic Signal Control

摘要：根据这段伪代码（Algorithm 1）和描述提供的信息，以下是对动作选择流程的详细分析，以及如何解决策略 $ \pi_\theta $ 和逆向模型 $ h_{\phi-} $ 在动作生成和修正中的作用： UGAT 算法的核心流程预训练策略 $ \pi_\theta $（第1行）在虚拟环境 $ 阅读全文

posted @ 2024-12-23 17:01 GraphL 阅读(68) 评论(0) 推荐(0)

2024年12月20日

DQN vs. DDQN

摘要：在传统的DQN（Deep Q-Learning Network）和DDQN（Double Deep Q-Learning Network）之间，主要区别如下： 1. Q值估计的目标函数不同： DQN: 在DQN中，目标Q值是通过最大化Q值的动作直接由同一个网络（目标网络）计算得到的。这可能会导致Q值阅读全文

posted @ 2024-12-20 13:53 GraphL 阅读(783) 评论(0) 推荐(0)

2024年12月18日

SUMO仿真流程

摘要：你描述的流程已经很接近了 SUMO 和深度强化学习（DQN）结合的一个典型工作流程。我可以详细解释一下 SUMO 在仿真优化 DQN 模型时的具体步骤，以及一个 Epoch 是如何设置的。 SUMO仿真与DQN模型结合流程初始化：你首先需要定义一个交通环境，通常使用 SUMO 来仿真。这个环境包阅读全文

posted @ 2024-12-18 22:13 GraphL 阅读(511) 评论(0) 推荐(0)

Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning

摘要：这段内容主要讨论了Grounded Action Transformation (GAT) 框架的逻辑和目标。GAT 是一种用于强化学习中仿真环境和真实环境动力学（transition dynamics）对齐的方法。以下是详细解读：整体背景与问题挑战：仿真环境 $ E_{sim} $ 和阅读全文

posted @ 2024-12-18 18:11 GraphL 阅读(250) 评论(0) 推荐(0)

强化学习理解

摘要：在深度Q网络（DQN）中，Q值并不能直接被理解为策略（policy），而是行动价值函数（action-value function）的一种估计。以下是一些关键点帮助你理解：什么是Q值？ Q(s, a) 表示在状态 $ s $ 采取动作 $ a $ 后，基于当前策略获得的累计奖励的期望值。在D 阅读全文

posted @ 2024-12-18 16:19 GraphL 阅读(153) 评论(0) 推荐(0)

loss计算的bug

摘要：评估。原来采用的是sum的方式，现在改成均值 This is a very insightful observation. Looking at the evaluate.py code, specifically in the drop_head_tail function: def drop_h 阅读全文

posted @ 2024-12-18 02:10 GraphL 阅读(40) 评论(0) 推荐(0)

2024年12月17日

关于模型预测用的是哪个回合

摘要： Looking at the code, I can help clarify the model saving and inference setup: Model Saving: Yes, the model is saved at every epoch in the train() meth 阅读全文

posted @ 2024-12-17 17:03 GraphL 阅读(21) 评论(0) 推荐(0)

2024年12月16日

数据集的生成

摘要：以下是上述内容的翻译：从代码来看，异常数据集（绕路和转换）是由训练数据生成的，而不是测试数据。以下是 process_datasets 方法中的相关部分： # 将训练数据中的正常轨迹进行转换 train_converted = {} for idx, traj in enumerate(train 阅读全文

posted @ 2024-12-16 20:51 GraphL 阅读(92) 评论(0) 推荐(0)

2024年12月14日

强化学习的设置

摘要：在这段代码中，DQN 的设置与联邦学习的场景紧密结合，状态、动作、环境和奖励分别具有以下定义和含义： 1. 状态（State）状态表示系统的当前情况，它提供了决策所需的信息。在该 DQN 设置中，状态由以下部分构成：客户端损失信息：损失组件比例（如 nll/total, kl/total, c 阅读全文

posted @ 2024-12-14 16:31 GraphL 阅读(127) 评论(0) 推荐(0)

csjywu01

公告