AI赋能测试_API测试

 

暴雪在API测试中的应用

 

 

 

 

强化学习例子

 

 

 问题:1    a,c,d,f。这里的d->f 是怎么计算的,我计算的是0.2*[4+ 0.8*(-1) - 0.6]

    是这值 还要加上原 Q(S,A) = 0.56+ 0.6= 1.16=1.2   (图2 DF为什么是1.2)

  2 关于结果相加

 

 

 

 

 不是两个动作相加

而是Q(s,a)相加

是这值 还要加上原 Q(S,A) = 0.56+ 0.6= 1.16=1.2

 

FAQ:

1、a-b 是第一轮更新 是什么机制触发第二轮 a-c更新的呢?

 

 epsilon导致的,0.8表示:80%的几率选择当前最优action,20%的几率选择其它action

第二轮走到了 a-c只是凑巧 选中了那20%吗

是的,很有可能第二轮是走不到a-c的,但是在后面的迭代里面,还是会走到a-c

2、初始Q边其实全部设置为0.1 也是可以的是吗

可以。q表,是可以预置值的 就像昨晚课程中, 设置0,-1。但是不好的地方是有人工先设置了,就是先了解了那个图告知了 机器一些“经验”。 为的是收敛更快。 一般可以都设置为0.1 ,就不需要人工提供经验了,让他自己学习。

 

posted on 2020-07-29 23:54  lexn  阅读(297)  评论(0编辑  收藏  举报

导航