摘要:
原始labelme数据目录结构如下: |-- images | | 1.jpg | | 1.json | | 2.jpg | | 2.json | | ....... |-- labelme2coco.py |-- labels.txt imges目录下就是你的数据集原始图片,加上labelme标注 阅读全文
摘要:
我看很多人都遇到了这个问题,有很多解决了的。我就把这篇博文再完善一下,让大家对mmdetection使用得心应手。 mmdetection训练自己的数据集时报错 ⚠️ : # AssertionError: The `num_classes` (3) in Shared2FCBBoxHead of 阅读全文
摘要:
之前看强化学习的一些教学视频,发现自己对一些强化学习中符号的定义理解不太透彻,例如 \(Q_{target}\),\(Q值\), \(Q估计\),\(Q现实\),\(Q预测\), 现在发现郭宪老师的书,试读了一下里边的内容,发现老师讲解的很透彻,并且原理解释的很清楚,因此做此笔记。一是为了监督自己的 阅读全文
摘要:
Detectron2环境配置 1.创建detectron2 conda环境 conda create -n detectron2 python=3.7 2.激活detectron2 conda环境 conda activate detectron2 3.安装 pytorch1.7.0 cuda10. 阅读全文
摘要:
ABSTRACT 交通信号控制是一个重要且具有挑战性的现实问题,其目标是通过协调车辆在道路交叉口的移动来最小化车辆的行驶时间。目前使用的交通信号控制系统仍然严重依赖过于简单的信息和基于规则的方法,尽管我们现在有更丰富的数据、更强的计算能力和先进的方法来推动智能交通的发展。随着人们对使用机器学习方法( 阅读全文
摘要:
ABSTRACT 一个为早晨的交通训练好的模型可能不适用于下午的交通,因为交通流可能被逆转,导致非常不同的状态表示。本文基于交通信号控制中相位冲突的直观原理,提出了一种新的设计方案FRAP:当两个交通信号发生冲突时,优先考虑交通流量较大(即需求较高)的信号。通过相位冲突建模,我们的模型实现了对交通流 阅读全文
摘要:
第三课:Model-free prediction和Model-free control 什么是MDP已知?: 马尔可夫决策过程中它的奖励 \(R\) 以及状态转移概率矩阵 \(P\) 都是暴露给agent的,就是环境是提前提供给你的,你是已知的。 所以我们能够用策略迭代的方法policy iter 阅读全文
摘要:
gym环境:FrozenLake-v0:http://gym.openai.com/envs/FrozenLake-v0/ 代码来自:周博磊老师的GitHub:https://github.com/cuhkrlcourse/RLexample/tree/master/MDP 环境如下: SFFF ( 阅读全文
摘要:
第一课:强化学习智能体的主要组成部分: Policy:引导智能体如何选取动作 Value function:来判断每个状态或者动作的好坏 Model:智能体在环境中的状态表示 Policy 一个决策就是智能体选取动作的模型 一个决策是一个映射函数,从状态、或者观测值到动作的映射 随机决策:随机概率 阅读全文
摘要:
强化学习论文记载 论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯控制的深度强化学习 ) 年份:2018.3 主要内容: 文献综述载于第二节。模型和问题陈述将在第三节 阅读全文