gym游戏_单腿翻滚的reward简略函数的设置

google的researcher人为设定了一个reward function，具体形式如下：

def reward_fn(a, ob):
    backroll = -ob[7]
    height = ob[0]
    vel_act = a[0] * ob[8] + a[1] * ob[9] + a[2] * ob[10]
    backslide = -ob[5]
    return backroll * (1.0 + .3 * height + .1 * vel_act + .05 * backslide)

这个reward function是单独为实现单腿翻滚这个目的设计的，是人为手工设计的，是凭借专家经验设置的，可以解读为这个设置是人工手调的，在这个奖励函数的设置下可以使用RL算法训练得到下面的效果：

Badgif3

researcher同时给出了一种人为评价方式优化奖励函数的方法来优化reward function，其论文地址：

https://arxiv.org/pdf/1706.03741

在该种优化方式下获得的新的reward function，并在新获得的reward function情况下训练RL算法获得如下的运行效果：

Goodgifb1 2

可以看到使用这种通过人为偏好评价优化reward function的方式训练获得的效果会更加的平滑，效果更有。

Angry Panda

gym游戏_单腿翻滚的reward简略函数的设置

公告

导航