RL 视频讲什么训练效果是好的

https://www.bilibili.com/video/BV1ca41187qB?p=3

   

17分55秒

   

   

什么效果比较好

无论是奖励还是步数都是缓缓的上升

   

 

   

   

   

如果奖励不是一直向上升,例如是先上升再下降,那拿最高点的模型就好

 

  

posted @ 2022-08-31 11:23  atomxing  阅读(13)  评论(0编辑  收藏  举报