多智能体强化学习在城市交通信号控制中的研究与应用- 笔记
摘要
- 成果:
(1) 建立城市多交叉路口交通流量时间序列文本数据集 (Multi-Road Traffic Dataset,MTD),构建城市仿真环境 (Urban Simulation Environment, USE),实现接近真实路况的多个交叉路口运行情况仿真。
(2) 促进 MARL 理论、算法和智能交通应用的深度结合,拓展 MARL 的应用范围,通过结合纳什均衡理论和通信理论优化城市交通信号控制 MARL 算法,提出基于纳什均衡的优势行动者评论家算法 (Nash-Advantage Actor-Critic,Nash-A2C)、异步优势行动者评论家算法 ((Nash-Asynchronous AdvantageActor-Critic, Nash-A3C) 和多智能体自动通信强化学习算法(Multi-AgentAuto Communication, MAAC)算法;
(3) 针对 MARL 算法在城市多个路口的工业级部署研究不足,通过预估交通信号控制智能体的网络传输时延,提出基于云计算、雾计算、边缘计算的混合计算架构的 Mixed-MARL 算法;
(4) 综合城市仿真环境、混合计算架构、MARL 城市交通信号控制算法, 提出城市交通信号控制的综合应用计算框架 (General City Traffic Computing Sys-tem, GCTCS),并组合纳什均衡、多智能体通信、混合计算架构优势,提出组合算法 General-MARL。 - 总结:
本文构建的城市仿真环境 USE 使用动态车流量预测的方式,实现了比传统仿真环境更加接近真实情况的效果;提出 MARL 优化算法(Nash-A2C、Nash-A3C、MAAC、Mixed-MARL、General-MARL)在仿真环境 USE 中的实验结果均优于传统基线算法。其中,组合纳什均衡、多智能体通信、混合计算架构的General-MARL 算法,在缓解多路口拥堵程度和降低网络时延上,取得了一定程度的成果(超过基线方法 23.2%,通信时延降低 11.7%)。
绪论:
- 基本概念
信号相位:
在一个红绿灯变化的信号周期内,将不同方向的车辆的通行时间进行分配和设定(不同的信号灯时长的组合)称为交通信号灯相位。
绝对相位差:
在交通灯信号多路口联动控制中,绝对相位差是指,选定某个交叉路口的绿灯时间为基准交叉路口,相对于基准交叉路口绿灯起始时间,其他各路口绿灯起始时间的差为绝对相位差。
相对相位差:
在交通灯信号多路口联动控制中,相对相位差是指, 在相邻两个交叉口协调相位的绿灯起始时间之差为相对相位差。
绿信比:
一个信号周期内,绿灯时长与周期时长的比值,称作绿信比。假设一个周
期内的绿灯时长是 g, 周期时间是 T, 那么绿信比就是 λ =g/T - 城市交通控制方法
- 强化学习在城市交通信号的控制和优化的两种类别
(1)周期式强化学习
(2)非周期式强化学习
非周期式的强化学习算法根据城市交通流的实时情况,即时调整选择相位和相位时长,尽量减少交叉路口的车流量拥堵情况,这是一种实时的(real-time)的强化学习的方法。但是该方法的实现复杂度高。
- 多智能体强化学习在城市交通信号控制上的研究和应用
强化学习主要优化的是一个路口的交通信号控制,但是城市交通信号控制往往需要多个路口的交通信号的协调控制和全局优化
MARL(多智能体强化学习) 在交通控制领域控制方法介绍
MARL 在交通控制领域控制方法有:
(1) 交叉路口完全独立的 MARL;
(2) 交叉路口部分状态合作的 MARL;
(3) 交叉路口联合动作和联合状态间接协调的 MARL。各智能体通过估计其他智能体的动作概率模型,无需实时协商,适合城市路网使用,但是在动态环境下更新估计模型,仍然是难点所在;
(4) 交叉路口联合动作和联合状态直接协调的 MARL。通过智能体和其他智能体实时协商选择最优动作,这类方法计算量和通信需求大,不适合城市路网直接使用。 - 国内外的研究者对城市交通信号的研究
- 创新点:
(1) 使用图卷积网络和生成对抗网络构建城市多交叉路口车流量预测模型
(2) 构建接近真实的多交叉路口仿真环境
(3)提出城市多交叉路交通信号控制的 MARL 的博弈算法模型(Nash-A2C,Nash-A3C)
(4)提出城市多交叉路口交通信号控制的 MARL 智能通信模型 MAAC 算法
(5)提出基于云计算、雾计算、边缘计算(混合计算架构)的 MARL 算法
(6)综合城市仿真环境、混合计算架构、MARL 城市交通信号控制算法
写了好多不小心没保存就后退了,全没了,先发吧