目前许多文章还在CSDN捏(左下角有音乐哦)
08 2023 档案
摘要:1、策略梯度介绍 相比与DQN,策略梯度方法的区别主要在于,我们对于在某个状态下所采取的动作,并不由一个神经网络来决定,而是由一个策略函数来给出,而这个策略函数的目的,就是使得最终的奖励的累加和最大,这也是训练目标,所以训练会围绕策略函数的梯度来进行。 2、策略函数 以Reinforce算法为例,
阅读全文
摘要:1、html的基本结构 a.首先是注释信息,在html中使用<!--xxx-->这样的方式来进行注释 b.DOCTYPE,这是告诉浏览器所使用规范,一般可以不加这个,因为现在的浏览器默认所使用的规范为html c.head标签,表示网页的头部,其中会放入其他标签 d.meta标签,这是一个描述性的标
阅读全文