随笔- 102 文章- 0 评论- 20 阅读- 27万

10 2020 档案

强化学习框架RLlib教程005：Training APIs的使用（四）Debug和外部API

摘要：目录 Eager模式（Eager Mode）使用pytorch Episode Traces 日志冗长（Log Verbosity）栈追踪（Stack Traces）外部应用API（External Application API）参考资料性能问题非常有用。 Eager模式（Eager M 阅读全文

posted @ 2020-10-07 13:37 黎明程序员阅读(887) 评论(0) 推荐(0) 编辑

强化学习框架RLlib教程004：Training APIs的使用（三）高级pythonAPI

摘要：目录定制训练流程（Custom Training Workflows）全局协调（Global Coordination）回调函数和自定义准则（Callbacks and Custom Metrics）可视化自定义的度量（Visualizing Custom Metrics）自定义探索行为（阅读全文

posted @ 2020-10-06 17:29 黎明程序员阅读(1359) 评论(0) 推荐(0) 编辑

强化学习框架RLlib教程003：Training APIs的使用（二）基础pythonAPI

摘要：目录基础pythonAPI概览计算动作（Computing Actions）获取策略状态（Accessing Policy State）获取模型状态（Accessing Model State）例子：预处理喂给model的观测值例子：查询一个policy的动作分布例子：从DQN模型中获阅读全文

posted @ 2020-10-04 22:22 黎明程序员阅读(1729) 评论(0) 推荐(0) 编辑

强化学习框架RLlib教程002：Training APIs（一）快速入门与配置项

摘要：目录开场（Getting Started）评估训练策略（Evaluating Trained Policies）指定参数（Specifying Parameters）指定资源（Specifying Resources）延伸指南（Scaling Guide）常用参数调好的参数文件（Tun 阅读全文

posted @ 2020-10-03 22:40 黎明程序员阅读(3826) 评论(0) 推荐(0) 编辑

强化学习框架RLlib教程001：Ray和RLlib介绍

摘要：目录什么是Ray 什么是RLlib 简单的代码风格 Policies Sample Batches Training Application Support Customization 参考资料什么是Ray Ray是一个用于构建和运行分布式应用程序的快速而简单的框架。 Ray通过以下方式完成这一阅读全文

posted @ 2020-10-02 11:22 黎明程序员阅读(7403) 评论(0) 推荐(0) 编辑

强化学习原理源码解读004：A3C (Asynchronous Advantage Actor-Critic)

摘要：目录 A3C原理源码实现参考资料针对A2C的训练慢的问题，DeepMind团队于2016年提出了多进程版本的A2C，即A3C。 A3C原理同时开多个worker，最后会把所有的经验集合在一起一开始有一个全局的网络，假设参数是θ1 每一个worker使用一个cpu去跑，工作之前就把全局的参数阅读全文

posted @ 2020-10-01 22:23 黎明程序员阅读(938) 评论(0) 推荐(0) 编辑

强化学习原理源码解读003：Actor-Critic和A2C

摘要：目录 Policy-based框架的缺点 Valued-based框架的缺点 Actor-Critic结合算法流程向Policy Gradient中加入baseline Q网络和V网络的定义 A2C (Advantage Actor-Critic) A2C损失函数的构建源码实现参考资料在强阅读全文

posted @ 2020-10-01 17:30 黎明程序员阅读(3544) 评论(1) 推荐(0) 编辑

公告

昵称：黎明程序员
园龄： 7年4个月
粉丝： 117
关注： 0

2025年2月

日

一

二

三

四

五

六

黎明程序员

10 2020 档案

公告

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论