如何理解强化学习中policy iteration的算法里面参数 j, Π?

见下图:

这两个上下标分别有何区别?

简单的说,就是一个是外循环,一个是内循环。

 

 

 

posted @ 2025-04-13 12:03  AlphaGeek  阅读(2)  评论(0)    收藏  举报