mappo中的多个agent的done的统计

eval_masks[eval_dones == True] = np.zeros(
((eval_dones == True).sum(), 1), dtype=np.float32)
eval_rnn_states[eval_dones == True] = np.zeros(
((eval_dones == True).sum(), self.recurrent_N, self.hidden_size), dtype=np.float32)
eval_rnn_states_critic[eval_dones == True] = np.zeros(
((eval_dones == True).sum(), self.recurrent_N, self.hidden_size), dtype=np.float32)

以上表示,在有N个agent,M个并行环境的情况下,当某个并行环境为done时,该环境下对应的N个angent的done的总和。
posted @ 2021-12-01 19:23  呦呦南山  阅读(118)  评论(0编辑  收藏  举报