后面那个smooth_l1_loss不是多此一举了吗?本来目的不就是已经求最大化adavantage?再加上这个不会导致当advantage是正数时,被压小了?
赞,博主加油,希望越写越好
非常感谢楼主的分享!
你的这些笔记都很好,语句通顺,思路清晰,谢谢!
梯度反向传播的计算公式中几乎所有的参数出现的都莫名其妙