Python小练习:object类型数据加载
摘要:Python小练习:object类型数据加载 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 给定npy文件,用Python加载后,发现该数据类型dtype=object,本文介绍object类型数据的调用/加载方法,并将数据转化为图像,保存为png与
阅读全文
posted @
2023-04-12 22:08
凯鲁嘎吉
阅读(105)
推荐(0) 编辑
Safe RL——Constrained Policy Optimization (CPO)
摘要:Safe RL——Constrained Policy Optimization (CPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇文章详细讲解Constrained Policy Optimization (CPO)的公式推导,文献来自
阅读全文
posted @
2022-11-19 10:44
凯鲁嘎吉
阅读(1454)
推荐(0) 编辑
Safe RL——Constrained Variational Policy Optimization for Safe Reinforcement Learning (CVPO)
摘要:Safe RL——Constrained Variational Policy Optimization for Safe Reinforcement Learning (CVPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 强化学习可以看作为概
阅读全文
posted @
2022-09-04 10:44
凯鲁嘎吉
阅读(1061)
推荐(0) 编辑
《Easy RL》面试题汇总
摘要:《Easy RL》面试题汇总 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 本博客汇总了蘑菇书《Easy RL》强化学习中文教程涉及的面试题及答案(v.1.0.3)。强化学习介绍可参看:强化学习(Reinforcement Learning) - 凯
阅读全文
posted @
2022-04-13 16:22
凯鲁嘎吉
阅读(1443)
推荐(0) 编辑
离线强化学习(A Survey on Offline Reinforcement Learning)
摘要:离线强化学习(A Survey on Offline Reinforcement Learning) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 通过阅读《A Survey on Offline Reinforcement Learning: Ta
阅读全文
posted @
2022-03-22 17:18
凯鲁嘎吉
阅读(3092)
推荐(3) 编辑
Deep Reinforcement Learning Hands-On——Policy Gradients – an Alternative
摘要:Deep Reinforcement Learning Hands-On——Policy Gradients – an Alternative 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Learning -
阅读全文
posted @
2022-02-28 16:32
凯鲁嘎吉
阅读(1867)
推荐(0) 编辑
动态规划(Dynamic Programming, DP)
摘要:动态规划(Dynamic Programming, DP) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 动态规则是运筹学的一个分支, 它是解决多阶段决策过程最优化的一种数学方法。大约产生于20世纪50年代。1951年美国数学家贝尔曼(R .Bell
阅读全文
posted @
2022-02-26 09:36
凯鲁嘎吉
阅读(407)
推荐(0) 编辑
Deep Reinforcement Learning Hands-On——Higher-Level RL Libraries (PTAN)
摘要:Deep Reinforcement Learning Hands-On——Higher-Level RL Libraries (PTAN) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Learning - 随
阅读全文
posted @
2022-02-23 12:01
凯鲁嘎吉
阅读(398)
推荐(0) 编辑
Deep Reinforcement Learning Hands-On——Tabular Learning and the Bellman Equation
摘要:Deep Reinforcement Learning Hands-On——Tabular Learning and the Bellman Equation 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Lea
阅读全文
posted @
2022-02-14 10:04
凯鲁嘎吉
阅读(289)
推荐(0) 编辑
Hands-On Reinforcement Learning With Python——Temporal Difference Learning
摘要:Hands-On Reinforcement Learning With Python——Temporal Difference Learning 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Learning
阅读全文
posted @
2022-01-10 09:58
凯鲁嘎吉
阅读(272)
推荐(0) 编辑
Windows下OpenAI gym环境的使用
摘要:Windows下OpenAI gym环境的使用 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. gym环境搭建用到的关键语句 1.1 准备工作 首先创建一个虚拟环境conda create -n RL python=3.8,激活activate
阅读全文
posted @
2022-01-04 01:06
凯鲁嘎吉
阅读(1451)
推荐(1) 编辑
Meta-RL——Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
摘要:Meta-RL——Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博客是“Ef
阅读全文
posted @
2021-11-23 13:04
凯鲁嘎吉
阅读(915)
推荐(0) 编辑
RL——Deep Reinforcement Learning amidst Continual/Lifelong Structured Non-Stationarity
摘要:RL——Deep Reinforcement Learning amidst Continual/Lifelong Structured Non-Stationarity 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博客简要回顾论文“Deep
阅读全文
posted @
2021-11-16 17:26
凯鲁嘎吉
阅读(635)
推荐(0) 编辑
Meta-RL——Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices
摘要:Meta-RL——Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇
阅读全文
posted @
2021-11-10 15:22
凯鲁嘎吉
阅读(303)
推荐(0) 编辑
强化学习相关资料(书籍,课程,网址,笔记等)
摘要:强化学习相关资料(书籍,课程,网址,笔记等) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看:Reinforcement Learning - 随笔分类 - 凯鲁嘎吉 - 博客园 https://www.cnblogs.com/kailuga
阅读全文
posted @
2021-11-01 16:14
凯鲁嘎吉
阅读(2418)
推荐(1) 编辑
双层优化问题:统一GAN,演员-评论员与元学习方法(Bilevel Optimization Problem unifies GAN, Actor-Critic, and Meta-Learning Methods)
摘要:双层优化问题:统一GAN,演员-评论员与元学习方法 (Bilevel Optimization Problem unifies GAN, Actor-Critic, and Meta-Learning Methods) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kai
阅读全文
posted @
2021-10-21 13:15
凯鲁嘎吉
阅读(5030)
推荐(1) 编辑
重要性采样(Importance Sampling)——TRPO与PPO的补充
摘要:重要性采样(Importance Sampling)——TRPO与PPO的补充 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 上两篇博客已经介绍了信赖域策略优化(Trust Region Policy Optimization, TRPO)与近端策略
阅读全文
posted @
2021-10-13 11:32
凯鲁嘎吉
阅读(1786)
推荐(2) 编辑
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)
摘要:近端策略优化算法(Proximal Policy Optimization Algorithms, PPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博文是Schulman, J., Wolski, F., Dhariwal, P., Ra
阅读全文
posted @
2021-10-12 09:54
凯鲁嘎吉
阅读(2534)
推荐(0) 编辑
信赖域策略优化(Trust Region Policy Optimization, TRPO)
摘要:信赖域策略优化(Trust Region Policy Optimization, TRPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇博文是John S., Sergey L., Pieter A., Michael J., Philip
阅读全文
posted @
2021-10-10 13:31
凯鲁嘎吉
阅读(2297)
推荐(2) 编辑
强化学习(Reinforcement Learning)
摘要:强化学习(Reinforcement Learning) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 通过阅读《神经网络与深度学习》及其他资料,了解强化学习(Reinforcement Learning)的基本知识,并介绍相关强化学习算法。更多强化
阅读全文
posted @
2021-09-29 21:19
凯鲁嘎吉
阅读(5959)
推荐(8) 编辑