Reinforcement Learning - 随笔分类 - StarHai

强化学习七 - Policy Gradient Methods

摘要：一.前言之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的action,还是根据ε-greedy policy以1-ε的概率选择使得action value 最大阅读全文

posted @ 2018-11-17 14:16 StarHai 阅读(2686) 评论(1) 推荐(0)

强化学习三：Dynamic Programming

摘要：1，Introduction 1.1 What is Dynamic Programming? Dynamic：某个问题是由序列化状态组成，状态step-by-step的改变，从而可以step-by-step的来解这个问题。 Programming：是在已知环境动力学的基础上进行评估和控制，具体来说阅读全文

posted @ 2018-11-03 00:38 StarHai 阅读(1322) 评论(0) 推荐(0)

强化学习二：Markov Processes

摘要：一、前言在第一章强化学习简介中，我们提到强化学习过程可以看做一系列的state、reward、action的组合。本章我们将要介绍马尔科夫决策过程（Markov Decision Processes)用于后续的强化学习研究中。二、马尔科夫过程（Markov Processes） 2.1 马尔科夫阅读全文

posted @ 2018-10-31 23:20 StarHai 阅读(1925) 评论(0) 推荐(0)

强化学习一：Introduction Of Reinforcement Learning

摘要：引言：最近和实验室的老师做项目要用到强化学习的有关内容，就开始学习强化学习的相关内容了。也不想让自己学习的内容荒废掉，所以想在博客里面记载下来，方便后面复习，也方便和大家交流。一、强化学习是什么？定义首先先看一段定义：Reinforcement learning is learning wh 阅读全文

posted @ 2018-10-31 00:29 StarHai 阅读(1754) 评论(0) 推荐(0)

StarHai

随笔分类 - Reinforcement Learning

公告