凯鲁嘎吉
用书写铭记日常,最迷人的不在远方

随笔分类 -  Reinforcement Learning

1
Python小练习:object类型数据加载
摘要:Python小练习:object类型数据加载 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 给定npy文件,用Python加载后,发现该数据类型dtype=object,本文介绍object类型数据的调用/加载方法,并将数据转化为图像,保存为png与 阅读全文
posted @ 2023-04-12 22:08 凯鲁嘎吉 阅读(105) 评论(0) 推荐(0) 编辑
Safe RL——Constrained Policy Optimization (CPO)
摘要:Safe RL——Constrained Policy Optimization (CPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇文章详细讲解Constrained Policy Optimization (CPO)的公式推导,文献来自 阅读全文
posted @ 2022-11-19 10:44 凯鲁嘎吉 阅读(1454) 评论(0) 推荐(0) 编辑
Safe RL——Constrained Variational Policy Optimization for Safe Reinforcement Learning (CVPO)
摘要:Safe RL——Constrained Variational Policy Optimization for Safe Reinforcement Learning (CVPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 强化学习可以看作为概 阅读全文
posted @ 2022-09-04 10:44 凯鲁嘎吉 阅读(1061) 评论(0) 推荐(0) 编辑
《Easy RL》面试题汇总
摘要:《Easy RL》面试题汇总 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 本博客汇总了蘑菇书《Easy RL》强化学习中文教程涉及的面试题及答案(v.1.0.3)。强化学习介绍可参看:强化学习(Reinforcement Learning) - 凯 阅读全文
posted @ 2022-04-13 16:22 凯鲁嘎吉 阅读(1443) 评论(0) 推荐(0) 编辑
离线强化学习(A Survey on Offline Reinforcement Learning)
摘要:离线强化学习(A Survey on Offline Reinforcement Learning) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 通过阅读《A Survey on Offline Reinforcement Learning: Ta 阅读全文
posted @ 2022-03-22 17:18 凯鲁嘎吉 阅读(3092) 评论(5) 推荐(3) 编辑
Deep Reinforcement Learning Hands-On——Policy Gradients – an Alternative
摘要:Deep Reinforcement Learning Hands-On——Policy Gradients – an Alternative 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Learning - 阅读全文
posted @ 2022-02-28 16:32 凯鲁嘎吉 阅读(1867) 评论(0) 推荐(0) 编辑
动态规划(Dynamic Programming, DP)
摘要:动态规划(Dynamic Programming, DP) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 动态规则是运筹学的一个分支, 它是解决多阶段决策过程最优化的一种数学方法。大约产生于20世纪50年代。1951年美国数学家贝尔曼(R .Bell 阅读全文
posted @ 2022-02-26 09:36 凯鲁嘎吉 阅读(407) 评论(0) 推荐(0) 编辑
Deep Reinforcement Learning Hands-On——Higher-Level RL Libraries (PTAN)
摘要:Deep Reinforcement Learning Hands-On——Higher-Level RL Libraries (PTAN) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Learning - 随 阅读全文
posted @ 2022-02-23 12:01 凯鲁嘎吉 阅读(398) 评论(0) 推荐(0) 编辑
Deep Reinforcement Learning Hands-On——Tabular Learning and the Bellman Equation
摘要:Deep Reinforcement Learning Hands-On——Tabular Learning and the Bellman Equation 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Lea 阅读全文
posted @ 2022-02-14 10:04 凯鲁嘎吉 阅读(289) 评论(0) 推荐(0) 编辑
Hands-On Reinforcement Learning With Python——Temporal Difference Learning
摘要:Hands-On Reinforcement Learning With Python——Temporal Difference Learning 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Learning 阅读全文
posted @ 2022-01-10 09:58 凯鲁嘎吉 阅读(272) 评论(0) 推荐(0) 编辑
Windows下OpenAI gym环境的使用
摘要:Windows下OpenAI gym环境的使用 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. gym环境搭建用到的关键语句 1.1 准备工作 首先创建一个虚拟环境conda create -n RL python=3.8,激活activate 阅读全文
posted @ 2022-01-04 01:06 凯鲁嘎吉 阅读(1451) 评论(0) 推荐(1) 编辑
Meta-RL——Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
摘要:Meta-RL——Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博客是“Ef 阅读全文
posted @ 2021-11-23 13:04 凯鲁嘎吉 阅读(915) 评论(5) 推荐(0) 编辑
RL——Deep Reinforcement Learning amidst Continual/Lifelong Structured Non-Stationarity
摘要:RL——Deep Reinforcement Learning amidst Continual/Lifelong Structured Non-Stationarity 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博客简要回顾论文“Deep 阅读全文
posted @ 2021-11-16 17:26 凯鲁嘎吉 阅读(635) 评论(0) 推荐(0) 编辑
Meta-RL——Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices
摘要:Meta-RL——Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇 阅读全文
posted @ 2021-11-10 15:22 凯鲁嘎吉 阅读(303) 评论(0) 推荐(0) 编辑
强化学习相关资料(书籍,课程,网址,笔记等)
摘要:强化学习相关资料(书籍,课程,网址,笔记等) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Learning - 随笔分类 - 凯鲁嘎吉 - 博客园 https://www.cnblogs.com/kailuga 阅读全文
posted @ 2021-11-01 16:14 凯鲁嘎吉 阅读(2418) 评论(0) 推荐(1) 编辑
双层优化问题:统一GAN,演员-评论员与元学习方法(Bilevel Optimization Problem unifies GAN, Actor-Critic, and Meta-Learning Methods)
摘要:双层优化问题:统一GAN,演员-评论员与元学习方法 (Bilevel Optimization Problem unifies GAN, Actor-Critic, and Meta-Learning Methods) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kai 阅读全文
posted @ 2021-10-21 13:15 凯鲁嘎吉 阅读(5030) 评论(2) 推荐(1) 编辑
重要性采样(Importance Sampling)——TRPO与PPO的补充
摘要:重要性采样(Importance Sampling)——TRPO与PPO的补充 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 上两篇博客已经介绍了信赖域策略优化(Trust Region Policy Optimization, TRPO)与近端策略 阅读全文
posted @ 2021-10-13 11:32 凯鲁嘎吉 阅读(1786) 评论(0) 推荐(2) 编辑
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)
摘要:近端策略优化算法(Proximal Policy Optimization Algorithms, PPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博文是Schulman, J., Wolski, F., Dhariwal, P., Ra 阅读全文
posted @ 2021-10-12 09:54 凯鲁嘎吉 阅读(2534) 评论(0) 推荐(0) 编辑
信赖域策略优化(Trust Region Policy Optimization, TRPO)
摘要:信赖域策略优化(Trust Region Policy Optimization, TRPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博文是John S., Sergey L., Pieter A., Michael J., Philip 阅读全文
posted @ 2021-10-10 13:31 凯鲁嘎吉 阅读(2297) 评论(1) 推荐(2) 编辑
强化学习(Reinforcement Learning)
摘要:强化学习(Reinforcement Learning) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 通过阅读《神经网络与深度学习》及其他资料,了解强化学习(Reinforcement Learning)的基本知识,并介绍相关强化学习算法。更多强化 阅读全文
posted @ 2021-09-29 21:19 凯鲁嘎吉 阅读(5959) 评论(1) 推荐(8) 编辑

1