摘要:
策略梯度呢,顾名思义,策略就是一个状态或者是action的分布,梯度就是我们的老朋友,梯度上升或者梯度下降。 就是说,J函数的自变量是西塔,然后对J求梯度,进而去更新西塔,比如说,J西塔,是一个该策略下预测状态值,也可以说是策略值,那么我们当然希望这个策略值越大越好,于是就要使用梯度上升,来不断更新 阅读全文
摘要:
有了上节课值函数近似的铺垫,这节课就来到了DQN,推开了深度强化学习的大门 为什么要学习DQN呢,为什么一定要有神经网络的参与呢,AI的发展肯定是为了帮助人类去完成一些事情,而人类的世界是很复杂的,很抽象的,不可能你几个数据就能训练出一个很厉害的模型,所以你需要上百万甚至不止的数据,那么,你从哪得到 阅读全文
摘要:
值函数近似,这是一个很有意思的东西,为后面DQN做铺垫吧,就是说,你想要训练模型,你手上确实有数据,0,1,2,3,4,5。。。。。诸如此类但是,它们就只是一个个的点,它们是离散的,不是连续的,比如说有一个和重要的状态,它是最优的一个点,但它夹在了1和2的中间,然后你也拿不到这个数据,因为你能拿到的 阅读全文
摘要:
这个是Q-learing的一个算法,根据代码,它就是,先设定训练100次,然后,给它一个随机的状态,这里我们假设状态6就是终点,那么走迷宫的时候,如果没走到6,就要一直走下去,,所以里面还要用到一个while循环,然后在每个状态的时候,找一个非负的动作,存储在数组里,(算是合理动作的集合吧),下一个 阅读全文
摘要:
先说一下我初始理解,就是图片上面有三部曲,然后他是一个有模型的算法,然后假如说我让他训练100次就是,用python来表达就是 for episode in (100),这个就是最外面的那一层循环,然后每次episode,就是上面三部曲,但是第一步初始化环境是会根据上一个episode来变化的,从第 阅读全文
摘要:
我觉得,这一章的重点就是,辨析Q(pai)S和V(pai)S,辨析它们拿到最佳pai的时间地点 第一个V(pai)s,因为上一张说他是“海王”,它就想着所有方法都试一下,它的侧重点是所有方法,所以它的概率值分配给不同的方法,比如方法一的概率是pai1,方法2就是(1-pai1),这样子分配下去,然后 阅读全文
摘要:
我第一次学贝尔曼方程的时候,当时没有搞清楚VpaiS和Vs的区别,今天大概能理解了,那我讲一讲 先看Vs,就是他到达某个特定状态之后得到的奖励加上后面衰减常数乘上,一大串,一大串是什么呢,就是一个求和,求和的是什么呢,就是到达下一个状态的状态值(可以理解为预期奖励大小)乘上到达下一个状态的概率,类似 阅读全文
摘要:
就是先讲一下背景知识嘛,随着人类科技的发展,人工智能也发展的不错,一些无人驾驶设备也包括无人机(本文主人公),在搜索人类难以到达的地方做出了极大贡献,然后话锋一转,但是啊。。。。要是你场景比较复杂呢,你目前现有的技术是够呛的,因为你的伸展性,和高效联合性都不太够;更进一步呢,当你任务场景变得更大之后 阅读全文
摘要:
本来捏,等后端那边任务差不多完成后,想开始和兄弟们一起学习数据结构与算法捏,但博主机缘巧合,要开始学习强化学习了,这是一个门槛高,但很有意思的领域,祝福我能够学有所成吧,以后可能会发些强化学习的东西,后端和算法应该也多多少少发点,才学第一课,动不动直接给我线代概率论,这门槛。。。。。加油吧 阅读全文
摘要:
这个配置类是用来获取WebSocket连接的握手请求中的HTTP会话对象,并将其保存起来,以便在后续的处理过程中使用。 在WebSocket连接握手时,客户端会发送一个HTTP请求,服务器需要对这个请求进行处理并升级为WebSocket连接。GetHttpSessionConfig类继承了Serve 阅读全文