芋圆院长

2021年5月27日

摘要：开始Python的复习！（以前学的忘了好多-_-）主要参考的是Github上的一个项目：https://github.com/jackfrued/Python-100-Days 文章主要是对该项目中的内容进行学习穿插一点自己的学习想法等内容~ 基本的那些变量类型、数据类型、循环等概念就不复习啦阅读全文

posted @ 2021-05-27 19:43 芋圆院长阅读(55) 评论(0) 推荐(0) 编辑

2021年5月26日

n步自举法

摘要： n步时序差分方法是单独的蒙特卡罗和时序差分方法更一般的推广，性能通常优于那两种极端形式。 n步TD预测 MC使用完整奖赏序列一步TD基于下一步奖赏，将一步后的状态值作为剩余奖赏的近似值进行引导更新 n步自举将MC与TD统一，灵活选择用未来n步的数据进行引导更新。更新是基于中间数量的奖赏值 n步Sa 阅读全文

posted @ 2021-05-26 21:22 芋圆院长阅读(222) 评论(0) 推荐(0) 编辑

2021年5月25日

时序差分学习（temporary learning, TD）

摘要：蒙特卡罗方法在没有环境模型的基础上，直接从经验中学习，无需获知环境的全部信息。动态规划从其它的已经学习到的估计值去更新估计值。TD则结合了这两种方法的优点，且不需要等到片段结束。对于控制问题，也就是寻找一个最优策略，DP、TD和蒙特卡罗方法都是用一些GPI的变量。不同之处在于它们对于预测问题的求解阅读全文

posted @ 2021-05-25 10:46 芋圆院长阅读(182) 评论(0) 推荐(0) 编辑

2021年5月24日

蒙特卡罗方法（Monte Carlo, MC）之on policy 和 off policy

摘要：概念解释同轨（on policy）策略：用于生成采样数据序列的策略和用于实际决策的待评估和改进的策略是一样的。在同轨策略方法中，策略一般是软性的（选中任何一个动作的概率大于某个值），会逐渐逼近一个确定性策略。【同轨策略算法的蒙特卡罗控制的总体思想依然是GPI，采用首次访问型MC算法来估计当前策阅读全文

posted @ 2021-05-24 11:21 芋圆院长阅读(982) 评论(0) 推荐(0) 编辑

2021年5月22日

蒙特卡罗方法（Monte Carlo, MC）

摘要：前言在不了解环境动态特性或已知动态特性有时求解不同状态的概率也很困难的情况下使用MC方法更加合理。蒙特卡罗算法通过平均样本的回报来解决强化学习问题。它主要利用的是经验，从真实的环境交互或环境交互的仿真中得到一个采样队列（状态、动作和奖励）【这决定了该方法主要针对分幕式任务，即任务在有限步内完成。阅读全文

posted @ 2021-05-22 17:31 芋圆院长阅读(363) 评论(0) 推荐(0) 编辑

2021年5月20日

动态规划（Dynamic Programming, DP）

摘要：在阅读Offline Reinforcement Learning的相关文章时有文章根据动态规划和策略梯度进行分类，在此加上进行一些简单的总结。主要参考了参考链接中的内容前言强化学习研究从总体思路上可以分为两个大方向，一种是通过值函数近似来得到策略称其为动态规划；另一种是策略梯度，讲究直接用函阅读全文

posted @ 2021-05-20 10:33 芋圆院长阅读(223) 评论(0) 推荐(0) 编辑

有限马尔可夫决策过程（Markov Decision Process, MDP）-- 强化学习策略和值函数

摘要：马尔可夫决策过程特征 · 状态、行动、奖励都是有限数值。下一次的状态和奖励只依赖于上一时刻的状态和行动。 · 马尔可夫决策过程与随机过程中的马尔可夫过程类似，不同点在于马尔可夫过程只看重状态之间的转移，主要研究的是给定初始状态稳定之后会变成什么样。在马尔可夫决策过程中，增加了动作的概念，两个状态之间阅读全文

posted @ 2021-05-20 09:36 芋圆院长阅读(447) 评论(0) 推荐(0) 编辑

2021年5月19日

强化学习之多臂赌博机

摘要： K臂赌博机问题描述：重复在K个动作中选择，每次做出选择后都会得到一定数值的收益，收益由选择的动作决定的平稳概率分布产生，目标是在某一段时间内最大化总收益的期望。问题解决思路：选择收益（价值）最大的动作。知道价值则直接选择，不知道价值就通过多次试验估计价值。动作值估计大数定律（多次尝试这个动阅读全文

posted @ 2021-05-19 10:46 芋圆院长阅读(35) 评论(0) 推荐(0) 编辑

2021年5月18日

强化学习建模之前必须思考的问题

摘要：强化学习理解强化学习是智能体与环境的交互（探索和试错），通过交互信息来感知环境，从而调整自己的行为，选择出最好的结果。强化学习更加侧重于从互动中进行目标导向的学习。【将情境映射到行动，以便最大化数值奖赏信号。通俗理解为对人学习过程的简单模拟，相当于人做了多次的探索，把最后的劳动成果以状态值函数阅读全文

posted @ 2021-05-18 11:19 芋圆院长阅读(174) 评论(0) 推荐(0) 编辑

2021年3月29日

Python文本读取

摘要： Python文本读取 .txt文件优点：txt文件容易读取，不需要调库。只要数据没问题，一般不会出现奇奇怪怪的错误。【当然，调用库读取Excel表格有问题的话，可以直接删除表格中自己不要的行、列，直接另存为制表符分割的txt文件】以文本由label 和 content两列组成为例方法： wit 阅读全文

posted @ 2021-03-29 15:46 芋圆院长阅读(142) 评论(0) 推荐(0) 编辑

公告