摘要:
Policy Gradient综述: Policy Gradient,通过学习当前环境,直接给出要输出的动作的概率值。 Policy Gradient 不是单步更新,只能等玩完一个epoch,再更新参数,采取动作与动作评价是同一个函数,所以是一个on-policy Policy Gradient 需 阅读全文
摘要:
Given a positive integer n, generate a square matrix filled with elements from 1 to n2 in spiral order. Example: Input: 3 Output: [ [ 1, 2, 3 ], [ 8, 阅读全文