2024 年 3月 1 日随笔档案 - jasonzhangxianrong

2024年3月1日

摘要：一、greedy import numpy as np import matplotlib.pyplot as plt class BernoulliBandit: """ 伯努利多臂老胡机,输入K表示拉杆个数 """ def __init__(self, K): self.probs = np.r 阅读全文

posted @ 2024-03-01 17:46 jasonzhangxianrong 阅读(75) 评论(0) 推荐(0) 编辑

动手学强化学习（三）：马尔可夫决策过程

摘要：转载自：https://hrl.boyuai.com/chapter/1/马尔可夫决策过程 3.1 简介马尔可夫决策过程（Markov decision process，MDP）是强化学习的重要概念。要学好强化学习，我们首先要掌握马尔可夫决策过程的基础知识。前两章所说的强化学习中的环境一般就是一个阅读全文

posted @ 2024-03-01 17:32 jasonzhangxianrong 阅读(1036) 评论(0) 推荐(0) 编辑

公告