g
y
7
7
7
7

随笔分类 -  强化学习

摘要:之前看强化学习的一些教学视频,发现自己对一些强化学习中符号的定义理解不太透彻,例如 \(Q_{target}\),\(Q值\), \(Q估计\),\(Q现实\),\(Q预测\), 现在发现郭宪老师的书,试读了一下里边的内容,发现老师讲解的很透彻,并且原理解释的很清楚,因此做此笔记。一是为了监督自己的 阅读全文
posted @ 2021-04-16 09:40 gy77 阅读(1045) 评论(1) 推荐(0) 编辑
摘要:ABSTRACT 交通信号控制是一个重要且具有挑战性的现实问题,其目标是通过协调车辆在道路交叉口的移动来最小化车辆的行驶时间。目前使用的交通信号控制系统仍然严重依赖过于简单的信息和基于规则的方法,尽管我们现在有更丰富的数据、更强的计算能力和先进的方法来推动智能交通的发展。随着人们对使用机器学习方法( 阅读全文
posted @ 2021-03-13 16:35 gy77 阅读(1272) 评论(0) 推荐(1) 编辑
摘要:ABSTRACT 一个为早晨的交通训练好的模型可能不适用于下午的交通,因为交通流可能被逆转,导致非常不同的状态表示。本文基于交通信号控制中相位冲突的直观原理,提出了一种新的设计方案FRAP:当两个交通信号发生冲突时,优先考虑交通流量较大(即需求较高)的信号。通过相位冲突建模,我们的模型实现了对交通流 阅读全文
posted @ 2021-03-09 09:41 gy77 阅读(766) 评论(0) 推荐(1) 编辑
摘要:第三课:Model-free prediction和Model-free control 什么是MDP已知?: 马尔可夫决策过程中它的奖励 \(R\) 以及状态转移概率矩阵 \(P\) 都是暴露给agent的,就是环境是提前提供给你的,你是已知的。 所以我们能够用策略迭代的方法policy iter 阅读全文
posted @ 2021-02-13 16:48 gy77 阅读(286) 评论(0) 推荐(0) 编辑
摘要:gym环境:FrozenLake-v0:http://gym.openai.com/envs/FrozenLake-v0/ 代码来自:周博磊老师的GitHub:https://github.com/cuhkrlcourse/RLexample/tree/master/MDP 环境如下: SFFF ( 阅读全文
posted @ 2021-01-21 17:01 gy77 阅读(505) 评论(0) 推荐(0) 编辑
摘要:第一课:强化学习智能体的主要组成部分: Policy:引导智能体如何选取动作 Value function:来判断每个状态或者动作的好坏 Model:智能体在环境中的状态表示 Policy 一个决策就是智能体选取动作的模型 一个决策是一个映射函数,从状态、或者观测值到动作的映射 随机决策:随机概率 阅读全文
posted @ 2021-01-18 14:44 gy77 阅读(219) 评论(0) 推荐(0) 编辑
摘要:强化学习论文记载 论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯控制的深度强化学习 ) 年份:2018.3 主要内容: 文献综述载于第二节。模型和问题陈述将在第三节 阅读全文
posted @ 2020-12-30 15:28 gy77 阅读(311) 评论(0) 推荐(0) 编辑
摘要:一般DQN中的经验池类,都类似于下面这段代码。 import random from collections import namedtuple, deque Transition = namedtuple('Transition', ('state', 'next_state', 'action' 阅读全文
posted @ 2020-12-15 17:27 gy77 阅读(849) 评论(0) 推荐(0) 编辑
摘要:都为笔者自己理解,加上笔者刚接触这个领域不久,因此可能存在理解偏差,希望可以和大家多多讨论,写这个知识储备的目的就是记录一下自己常用的知识,便于回顾以及查找。毕竟自己记录的知识,回顾起来自己写的什么意思最容易理解。 本文中的图片都源于百度AI studio课程: 强化学习7日打卡营-世界冠军带你从零 阅读全文
posted @ 2020-11-22 20:29 gy77 阅读(1247) 评论(0) 推荐(0) 编辑
摘要:1. Sarsa模型 1.1 Sarsa类代码: class SarsaAgent(object): def __init__(self,state_n,action_n,learning_rate=0.01,gamma=0.9,e_greed=0.1): """ :param state_n:状态 阅读全文
posted @ 2020-11-19 17:18 gy77 阅读(298) 评论(0) 推荐(0) 编辑