AI赋能测试_API测试
暴雪在API测试中的应用
强化学习例子
问题:1 a,c,d,f。这里的d->f 是怎么计算的,我计算的是0.2*[4+ 0.8*(-1) - 0.6]
是这值 还要加上原 Q(S,A) = 0.56+ 0.6= 1.16=1.2 (图2 DF为什么是1.2)
2 关于结果相加
不是两个动作相加
而是Q(s,a)相加
是这值 还要加上原 Q(S,A) = 0.56+ 0.6= 1.16=1.2
FAQ:
1、a-b 是第一轮更新 是什么机制触发第二轮 a-c更新的呢?
epsilon导致的,0.8表示:80%的几率选择当前最优action,20%的几率选择其它action
第二轮走到了 a-c只是凑巧 选中了那20%吗
是的,很有可能第二轮是走不到a-c的,但是在后面的迭代里面,还是会走到a-c
2、初始Q边其实全部设置为0.1 也是可以的是吗
可以。q表,是可以预置值的 就像昨晚课程中, 设置0,-1。但是不好的地方是有人工先设置了,就是先了解了那个图告知了 机器一些“经验”。 为的是收敛更快。 一般可以都设置为0.1 ,就不需要人工提供经验了,让他自己学习。