强化学习资源汇总
配置环境
(1)安装Anaconda:Download
(2)使用conda管理运行环境:
- 创建环境:conda create -n your_env_name python=x.x
- 删除环境:conda remove -n your_env_name --all
- 查看当前存在哪些虚拟环境:conda env list / conda info -e
- 查看安装了哪些包:conda list
- 在Navigator面板左上的Channels中切换当前环境
(3)换源:anaconda | 镜像站使用帮助 | 清华大学开源软件镜像站
(4)安装 PyTorch:Start Locally | PyTorch
(5)安装 Gym:Getting Started with Gym
知识速查
ML Glossary(机器学习术语速查)
论文检索与管理
强化学习理论
Reinforcement Learning An Introduction(强化学习圣经)
Open AI Spinning Up | Introduction to RL
强化学习开源项目
RLcard 通用卡牌游戏决策模型(模型:DMC,CFR,DDQN,NFSP;环境:二十一点,德州扑克,斗地主,麻将,UNO,金拉米)
AlphaZero(value和policy双输出网络,MCTS作为策略改进算子)
DouZero(基于深度蒙特卡洛学习)
优秀课程
动手学深度学习(李沐大神参与其中,支持Tensorflow、Pytorch演示)
谷歌机器学习速成课(基于Tensorflow API)
Tensorflow.js项目实战(讲解细致,有大量干货的付费课,老师反馈很快,体验很好)
强化学习实战系列(b站盗课系列,网上为数不多的RL课程,数学极少的讲解风格,最好有一些RL理论和pytorch基础再食用)
其他
NN Playground(基于tensorflow.js的神经网络训练可视化网站,非常有意思,可以体验调参的快乐)
CS231 Convolutional Neural Networks(图文详解卷积神经网络)
Image Kernals(可视化卷积层的作用)
Tensorflow预训练模型库(涵盖图像语音文本十余个轻量模型,即插即用,让迁移学习变得简单)
Botzone(游戏AI比赛平台)
如何自定义强化学习环境?(1)Gym的例子(2)Stable Baseline3的例子
使用Wrapper对Env信息进行扩展/处理/增强:(1)Extending OpenAI Gym environments with Wrappers and Monitors(2)Gym Wrappers(3)Blog
使用动作掩码加速训练:Maskable PPO
读RL框架源码时经常会遇到Python的类装饰器,详解:链接