mappo中的多个agent的done的统计

eval_masks[eval_dones == True] = np.zeros(
    ((eval_dones == True).sum(), 1), dtype=np.float32)
eval_rnn_states[eval_dones == True] = np.zeros(
    ((eval_dones == True).sum(), self.recurrent_N, self.hidden_size), dtype=np.float32)
eval_rnn_states_critic[eval_dones == True] = np.zeros(
    ((eval_dones == True).sum(), self.recurrent_N, self.hidden_size), dtype=np.float32)

以上表示，在有N个agent，M个并行环境的情况下，当某个并行环境为done时，该环境下对应的N个angent的done的总和。

posted @ 2021-12-01 19:23 呦呦南山阅读(125) 评论(0) 编辑收藏举报

刷新页面返回顶部

mappo中的多个agent的done的统计

公告