08 2023 档案

强化学习——策略梯度之Reinforce

摘要：1、策略梯度介绍相比与DQN，策略梯度方法的区别主要在于，我们对于在某个状态下所采取的动作，并不由一个神经网络来决定，而是由一个策略函数来给出，而这个策略函数的目的，就是使得最终的奖励的累加和最大，这也是训练目标，所以训练会围绕策略函数的梯度来进行。 2、策略函数以Reinforce算法为例，阅读全文

posted @ 2023-08-03 17:59 想成为编程高手的阿曼阅读(528) 评论(0) 推荐(0)

前端学习之HTML——(1)

摘要：1、html的基本结构 a.首先是注释信息，在html中使用这样的方式来进行注释 b.DOCTYPE，这是告诉浏览器所使用规范，一般可以不加这个，因为现在的浏览器默认所使用的规范为html c.head标签，表示网页的头部，其中会放入其他标签 d.meta标签，这是一个描述性的标阅读全文

posted @ 2023-08-02 10:11 想成为编程高手的阿曼阅读(126) 评论(0) 推荐(0)

humanplug

08 2023 档案

公告