AI赋能测试_API测试

暴雪在API测试中的应用

强化学习例子

问题：1 a，c，d，f。这里的d->f 是怎么计算的，我计算的是0.2*[4+ 0.8*（-1） - 0.6]

　　　　是这值还要加上原 Q（S,A） = 0.56+ 0.6= 1.16=1.2 （图2 DF为什么是1.2）

　　2 关于结果相加

不是两个动作相加

而是Q（s，a）相加

是这值还要加上原 Q（S,A） = 0.56+ 0.6= 1.16=1.2

FAQ：

1、a-b 是第一轮更新是什么机制触发第二轮 a-c更新的呢？

epsilon导致的，0.8表示：80%的几率选择当前最优action，20%的几率选择其它action

第二轮走到了 a-c只是凑巧选中了那20%吗

是的，很有可能第二轮是走不到a-c的，但是在后面的迭代里面，还是会走到a-c

2、初始Q边其实全部设置为0.1 也是可以的是吗

可以。q表，是可以预置值的就像昨晚课程中，设置0，-1。但是不好的地方是有人工先设置了，就是先了解了那个图告知了机器一些“经验”。为的是收敛更快。一般可以都设置为0.1 ，就不需要人工提供经验了，让他自己学习。

posted on 2020-07-29 23:54 lexn 阅读(301) 评论(0) 编辑收藏举报

刷新页面返回顶部