糖子哥 - 博客园

2023年12月

摘要：策略梯度呢，顾名思义，策略就是一个状态或者是action的分布，梯度就是我们的老朋友，梯度上升或者梯度下降。就是说，J函数的自变量是西塔，然后对J求梯度，进而去更新西塔，比如说，J西塔，是一个该策略下预测状态值，也可以说是策略值，那么我们当然希望这个策略值越大越好，于是就要使用梯度上升，来不断更新阅读全文

posted @ 2023-12-28 20:36 糖子哥阅读(25) 评论(0) 推荐(0) 编辑

深度Q神经网络(DQN)

摘要：有了上节课值函数近似的铺垫，这节课就来到了DQN,推开了深度强化学习的大门为什么要学习DQN呢，为什么一定要有神经网络的参与呢，AI的发展肯定是为了帮助人类去完成一些事情，而人类的世界是很复杂的，很抽象的，不可能你几个数据就能训练出一个很厉害的模型，所以你需要上百万甚至不止的数据，那么，你从哪得到阅读全文

posted @ 2023-12-27 17:30 糖子哥阅读(61) 评论(0) 推荐(0) 编辑

值函数近似

摘要：值函数近似，这是一个很有意思的东西，为后面DQN做铺垫吧，就是说，你想要训练模型，你手上确实有数据，0，1，2，3，4，5。。。。。诸如此类但是，它们就只是一个个的点，它们是离散的，不是连续的，比如说有一个和重要的状态，它是最优的一个点，但它夹在了1和2的中间，然后你也拿不到这个数据，因为你能拿到的阅读全文

posted @ 2023-12-27 16:37 糖子哥阅读(5) 评论(0) 推荐(0) 编辑

Q-learning与Sarsa算法辨析

摘要：这个是Q-learing的一个算法，根据代码，它就是，先设定训练100次，然后，给它一个随机的状态，这里我们假设状态6就是终点，那么走迷宫的时候，如果没走到6，就要一直走下去，，所以里面还要用到一个while循环，然后在每个状态的时候，找一个非负的动作，存储在数组里，（算是合理动作的集合吧），下一个阅读全文

posted @ 2023-12-16 21:56 糖子哥阅读(29) 评论(0) 推荐(0) 编辑

值迭代与策略迭代（有模型）

摘要：先说一下我初始理解，就是图片上面有三部曲，然后他是一个有模型的算法，然后假如说我让他训练100次就是，用python来表达就是 for episode in (100),这个就是最外面的那一层循环，然后每次episode，就是上面三部曲，但是第一步初始化环境是会根据上一个episode来变化的，从第阅读全文

posted @ 2023-12-16 12:04 糖子哥阅读(35) 评论(0) 推荐(0) 编辑

重修贝尔曼最优方程

摘要：我觉得，这一章的重点就是，辨析Q(pai)S和V(pai)S,辨析它们拿到最佳pai的时间地点第一个V(pai)s，因为上一张说他是“海王”，它就想着所有方法都试一下，它的侧重点是所有方法，所以它的概率值分配给不同的方法，比如方法一的概率是pai1，方法2就是（1-pai1），这样子分配下去，然后阅读全文

posted @ 2023-12-16 10:24 糖子哥阅读(8) 评论(0) 推荐(0) 编辑

重修贝尔曼方程，深刻体悟sar三件套之美

摘要：我第一次学贝尔曼方程的时候，当时没有搞清楚VpaiS和Vs的区别，今天大概能理解了，那我讲一讲先看Vs，就是他到达某个特定状态之后得到的奖励加上后面衰减常数乘上，一大串，一大串是什么呢，就是一个求和，求和的是什么呢，就是到达下一个状态的状态值（可以理解为预期奖励大小）乘上到达下一个状态的概率，类似阅读全文

posted @ 2023-12-16 01:10 糖子哥阅读(25) 评论(0) 推荐(0) 编辑

强化学习论文解读——无人机的创新

摘要：就是先讲一下背景知识嘛，随着人类科技的发展，人工智能也发展的不错，一些无人驾驶设备也包括无人机（本文主人公），在搜索人类难以到达的地方做出了极大贡献，然后话锋一转，但是啊。。。。要是你场景比较复杂呢，你目前现有的技术是够呛的，因为你的伸展性，和高效联合性都不太够；更进一步呢，当你任务场景变得更大之后阅读全文

posted @ 2023-12-10 12:39 糖子哥阅读(93) 评论(1) 推荐(0) 编辑

强化学习的第一天，好吧其实是学数学

摘要：本来捏，等后端那边任务差不多完成后，想开始和兄弟们一起学习数据结构与算法捏，但博主机缘巧合，要开始学习强化学习了，这是一个门槛高，但很有意思的领域，祝福我能够学有所成吧，以后可能会发些强化学习的东西，后端和算法应该也多多少少发点，才学第一课，动不动直接给我线代概率论，这门槛。。。。。加油吧阅读全文

posted @ 2023-12-09 16:19 糖子哥阅读(5) 评论(0) 推荐(0) 编辑

在线聊天室如何搭建，websocket的理解运用

摘要：这个配置类是用来获取WebSocket连接的握手请求中的HTTP会话对象，并将其保存起来，以便在后续的处理过程中使用。在WebSocket连接握手时，客户端会发送一个HTTP请求，服务器需要对这个请求进行处理并升级为WebSocket连接。GetHttpSessionConfig类继承了Serve 阅读全文

posted @ 2023-12-03 23:58 糖子哥阅读(140) 评论(0) 推荐(0) 编辑

公告