随笔分类 - Reinforcement Learning
摘要:一.前言 之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的action,还是根据ε-greedy policy以1-ε的概率选择使得action value 最大
阅读全文
摘要:1,Introduction 1.1 What is Dynamic Programming? Dynamic:某个问题是由序列化状态组成,状态step-by-step的改变,从而可以step-by-step的来解这个问题。 Programming:是在已知环境动力学的基础上进行评估和控制,具体来说
阅读全文
摘要:一、前言 在第一章强化学习简介中,我们提到强化学习过程可以看做一系列的state、reward、action的组合。本章我们将要介绍马尔科夫决策过程(Markov Decision Processes)用于后续的强化学习研究中。 二、马尔科夫过程(Markov Processes) 2.1 马尔科夫
阅读全文
摘要:引言: 最近和实验室的老师做项目要用到强化学习的有关内容,就开始学习强化学习的相关内容了。也不想让自己学习的内容荒废掉,所以想在博客里面记载下来,方便后面复习,也方便和大家交流。 一、强化学习是什么? 定义 首先先看一段定义:Reinforcement learning is learning wh
阅读全文