2020 年 9月 8 日随笔档案 - Tolshao

2020年9月8日

强化学习仿真环境搭建入门Getting Started with OpenAI gym

摘要： gym入门gym是用于开发和比较强化学习算法的工具包。它不对代理的结构做任何假设，并且与任何数字计算库(例如TensorFlow或Theano)兼容。gym库是测试问题(环境)的集合，您可以用来制定强化学习算法。这些环境具有共享的接口，使您可以编写常规算法。安装首先，您需要安装Python 3.5+。只需使用pip安装gym：如果你的电脑中存在系统版本Python2，那你可能要用pip3来安装pi... 阅读全文

posted @ 2020-09-08 16:05 Tolshao 阅读(2066) 评论(0) 推荐(0) 编辑

RL实践3——为Agent添加Policy、记忆功能

摘要：参考自知乎（叶强）Introduction在实践2中，介绍了gym环境的定义和使用方法。在实践1中，介绍了动态规划DP 求解价值函数并没有形成一个策略Policy\(\pi\)来指导agent的动作选取，本节将利用SARSA（0）的学习方法，帮助agent学习到价值函数(表），指导\(\epsilon\)-greedy策略选取动作。Agent的写法Agent的三要素是：价值函数、策略、模型本节... 阅读全文

posted @ 2020-09-08 14:58 Tolshao 阅读(433) 评论(0) 推荐(0) 编辑

强化学习笔记10：经典游戏示例 classic games

摘要： 1、前沿 state of art学习经典游戏的原因规则简单，细思又很深入历史悠久，已经被研究了几百年对IQ测试有意义是现实世界的问题的缩影已经有很多RL案例，战胜了人类，例如2、游戏理论 game theory游戏的最优性对于石头剪刀布来说，最优策略，显然和对手agent策略相关，我们期望找到一种一致的策略策略，对所有对手都有效什么是第i个玩家的最优策略\(\pi\)最佳响应 best resp... 阅读全文

posted @ 2020-09-08 14:58 Tolshao 阅读(683) 评论(0) 推荐(0) 编辑

强化学习笔记11：工程师看强化学习

摘要：这里有很多形象的图，方便理解强化学习的公式知乎白话强化学习，有空了可以来看强化学习-11：Matlab RLAgent：由Policy 和 RL_Algorithm构成policy负责将observation映射为actionRL_Algorithm负责优化policyEnviroment：输入action输出reward、state内部执行状态转移、判断是否任务终止等关键定义Reward：根据... 阅读全文

posted @ 2020-09-08 14:57 Tolshao 阅读(673) 评论(0) 推荐(0) 编辑

Tolshao

公告