摘要: 一、greedy import numpy as np import matplotlib.pyplot as plt class BernoulliBandit: """ 伯努利多臂老胡机,输入K表示拉杆个数 """ def __init__(self, K): self.probs = np.r 阅读全文
posted @ 2024-03-01 17:46 jasonzhangxianrong 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://hrl.boyuai.com/chapter/1/马尔可夫决策过程 3.1 简介 马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念。要学好强化学习,我们首先要掌握马尔可夫决策过程的基础知识。前两章所说的强化学习中的环境一般就是一个 阅读全文
posted @ 2024-03-01 17:32 jasonzhangxianrong 阅读(1036) 评论(0) 推荐(0) 编辑