强化学习 - 随笔分类 - gy77

深入浅出强化学习：原理入门（待更新）

摘要：之前看强化学习的一些教学视频，发现自己对一些强化学习中符号的定义理解不太透彻，例如 \(Q_{target}\),\(Q值\), \(Q估计\)，\(Q现实\)，\(Q预测\)，现在发现郭宪老师的书，试读了一下里边的内容，发现老师讲解的很透彻，并且原理解释的很清楚，因此做此笔记。一是为了监督自己的阅读全文

posted @ 2021-04-16 09:40 gy77 阅读(1045) 评论(1) 推荐(0) 编辑

论文记载：A Survey on Traffic Signal Control Methods

摘要：ABSTRACT 交通信号控制是一个重要且具有挑战性的现实问题，其目标是通过协调车辆在道路交叉口的移动来最小化车辆的行驶时间。目前使用的交通信号控制系统仍然严重依赖过于简单的信息和基于规则的方法，尽管我们现在有更丰富的数据、更强的计算能力和先进的方法来推动智能交通的发展。随着人们对使用机器学习方法( 阅读全文

posted @ 2021-03-13 16:35 gy77 阅读(1272) 评论(0) 推荐(1) 编辑

论文记载：FRAP：Learning Phase Competition for Traffic Signal Control

摘要：ABSTRACT 一个为早晨的交通训练好的模型可能不适用于下午的交通，因为交通流可能被逆转，导致非常不同的状态表示。本文基于交通信号控制中相位冲突的直观原理，提出了一种新的设计方案FRAP:当两个交通信号发生冲突时，优先考虑交通流量较大(即需求较高)的信号。通过相位冲突建模，我们的模型实现了对交通流阅读全文

posted @ 2021-03-09 09:41 gy77 阅读(766) 评论(0) 推荐(1) 编辑

周博磊老师强化学习纲领笔记第三课：无模型的价值函数估计和控制

摘要：第三课：Model-free prediction和Model-free control 什么是MDP已知？：马尔可夫决策过程中它的奖励 \(R\) 以及状态转移概率矩阵 \(P\) 都是暴露给agent的，就是环境是提前提供给你的，你是已知的。所以我们能够用策略迭代的方法policy iter 阅读全文

posted @ 2021-02-13 16:48 gy77 阅读(286) 评论(0) 推荐(0) 编辑

周博磊老师强化学习纲领笔记第二课：MDP，Policy Iteration与Value Iteration

摘要：gym环境：FrozenLake-v0：http://gym.openai.com/envs/FrozenLake-v0/ 代码来自：周博磊老师的GitHub：https://github.com/cuhkrlcourse/RLexample/tree/master/MDP 环境如下： SFFF ( 阅读全文

posted @ 2021-01-21 17:01 gy77 阅读(505) 评论(0) 推荐(0) 编辑

周博磊老师强化学习纲领笔记第一课：强化学习基础

摘要：第一课：强化学习智能体的主要组成部分： Policy：引导智能体如何选取动作 Value function：来判断每个状态或者动作的好坏 Model：智能体在环境中的状态表示 Policy 一个决策就是智能体选取动作的模型一个决策是一个映射函数，从状态、或者观测值到动作的映射随机决策：随机概率阅读全文

posted @ 2021-01-18 14:44 gy77 阅读(219) 评论(0) 推荐(0) 编辑

论文记载： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

摘要：强化学习论文记载论文名： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks （车辆网络交通信号灯控制的深度强化学习）年份：2018.3 主要内容：文献综述载于第二节。模型和问题陈述将在第三节阅读全文

posted @ 2020-12-30 15:28 gy77 阅读(311) 评论(0) 推荐(0) 编辑

Reinforcement Learning (DQN) 中经验池详细解释

摘要：一般DQN中的经验池类，都类似于下面这段代码。 import random from collections import namedtuple, deque Transition = namedtuple('Transition', ('state', 'next_state', 'action' 阅读全文

posted @ 2020-12-15 17:27 gy77 阅读(849) 评论(0) 推荐(0) 编辑

强化学习的知识储备【更新完成】

摘要：都为笔者自己理解，加上笔者刚接触这个领域不久，因此可能存在理解偏差，希望可以和大家多多讨论，写这个知识储备的目的就是记录一下自己常用的知识，便于回顾以及查找。毕竟自己记录的知识，回顾起来自己写的什么意思最容易理解。本文中的图片都源于百度AI studio课程：强化学习7日打卡营-世界冠军带你从零阅读全文

posted @ 2020-11-22 20:29 gy77 阅读(1247) 评论(0) 推荐(0) 编辑

Sarsa模型和Q_learning模型简记

摘要：1. Sarsa模型 1.1 Sarsa类代码： class SarsaAgent(object): def __init__(self,state_n,action_n,learning_rate=0.01,gamma=0.9,e_greed=0.1): """ :param state_n:状态阅读全文

posted @ 2020-11-19 17:18 gy77 阅读(298) 评论(0) 推荐(0) 编辑

一届书生

本博客所有内容以学习、研究和分享为主，如需转载，请标明作者和出处，并且是非商业用途，谢谢。

随笔分类 - 强化学习

公告