随笔分类 -  🍅 人工智能

RL 基础 | 如何复现 PPO,以及一些踩坑经历
摘要:记录一下最近复现 PPO 的过程……
785
0
1
RL 基础 | 如何使用 OpenAI Gym 接口,搭建自定义 RL 环境(详细版)
摘要:需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。
290
0
0
RL 基础 | Policy Gradient 的推导
摘要:如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。
231
0
0
RL 基础 | Policy Iteration 的收敛性证明
摘要:1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。
306
3
0
RL 基础 | Value Iteration 的收敛性证明
摘要:贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。
708
0
0
RL 基础 | 如何注册自定义 gym 环境
摘要:感谢善良的知乎博客🙏🏻
134
0
0
python · matplotlib | 如何绘制子图
摘要:subplots 子图,scatter 散点图,plot 连点成线,color 与 fontsize。
82
0
0
python 基础 | 实现微秒级计时
摘要:使用 python datetime 库,实现微秒级计时。
145
0
0
RL 基础 | 如何搭建自定义 gym 环境
摘要:主要就是 __init__, step, reset 三个方法,① __init__ 要记得定义 state action space,② step 返回 (obs, reward, done, info),③ reset 返回 obs。返回的 obs 要用 np.ndarray 表示。
338
0
0
python · pytorch | NN 训练常用代码存档
摘要:① pandas 读 csv,② 基于 pytorch 的模型搭建、训练、测试。
57
1
0
python 基础 | 虚拟环境搭建全流程
摘要:在装服务器 python 环境,顺便整理一下 python 虚拟环境(venv)搭建全流程
179
1
0
DL 基础 | cs231n assignment 2
摘要:20210913 - 20211005。cs231n,assignment 2。
337
0
0
DL 基础 | cs231n assignment 1
摘要:20210804 - 20210808。cs231n,assignment 1。
128
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起
  1. 1 Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto - Jascha Heifetz / Chicago Symphony Orchestra
00:00 / 00:00
An audio error has occurred.