使用联邦学习法训练强化学习算法以实现对抗攻击性:读论文——小型微型计算机系统(中文CCF B)《面向深度强化学习的鲁棒性增强方法》

image



论文地址:

http://xwxt.sict.ac.cn/CN/Y2024/V45/I7/1552



image


image
PS:
这个学习率有些奇怪,用数据量占一次优化的总数据量的大小作为学习率,这或许也是真的有独创性的操作了,不过这么做是否真的可行呢,或者这只是纸上谈兵呢。



image



image

PS:
这里的状态转移概率怎么和策略的动作选择概率比较像,莫非是这二者有什么等价性,或许这是什么未发现的学术点,有可能是极为有价值的地方。这里的第二个神奇地方是AC算法或者说PPO算法中不适用V函数,而是使用Q函数,甚至直接在critic部分的loss function中把Q-learning的损失函数搞进来了,只能说这种搞法不常见,虽然主流写法不这样写,但是也不能说这样就不可以,总之确实有些标新立异了。


虽然上面的对于强化学习算法PPO算法的部分的解释或许有些神奇,但是这也不是这篇文章的重点,但是使用联邦学习来优化强化学习算法确实是少见,可能这也是学术界和产业界一直使用强化学习算法来优化联邦学习算法的一个遗漏之处,这也是一个神奇的点。

image

PS:
这里更狠,你说这是使用重要采样,确实可以从这个角度来看,但是这个角度只是便于理解的角度,而这绝不是理论解释的角度,如果从这个角度来推导PPO算法那又怎么又现在的这个计算方法呢,那TRPO算法又该如何解释呢。这里的actor的损失函数中的log函数哪里去了呢,难道这也是一种独处呢;状态转移概率再次取代了策略动作概率;GAE说成了advantage函数,这也可以,不算大问题;关键我就好奇了,这个算法里面怎么既可以在critic部分输出Q函数值又能输出V函数值呢,我至今还没见过RL算法中可以同时输入V函数和Q函数的设计,这真的的太厉害了!!!



image

PS:
神奇的地方真的不是一点点!!!上面的公示5和公式9是同一个公式,虽然这两个公式都缺少了log函数,但是公式9是加了负号的,而公式5是没有加负号的。公式7和公式10本也是同一个公式,但是在公式10中加了两个超参数,\(\lambda_1\)\(\lambda_2\)到底是个什么鬼???

最为神奇的是这里面居然使用的是“一层全连接网络”,要知道就是最经典的浅层神经网络——单隐藏层神经网络那也是个“两层全连接网络”,而这里的“一层全连接网络”更是算不上深度神经网络呢,最差也得是两层隐藏层网络呀。



image

PS:
这里又变成两层全连接网络了,这上下还出现出入了。



这篇论文神奇的地方不止一点点:

image

PS:

要知道这里的是强化学习算法,再把联邦学习加进来,也没有说把输入数据进行维度分解的搞法呀,这又不是做深度神经网络的并行计算,居然还出现了输入数据的维度切割的操作,十分的神奇。

最为神奇的是这里把输入数据的加噪音算作攻击,要知道不论是强化学习中的随机动作的加入还是噪音加入以及域随机化都是为了提高模型的鲁棒性的,这里的操作和说法简直是有些倒果为因了。本文的攻击性难道就是这里的输入数据的加噪音吗,神奇神奇神奇!!!



image

PS:

不得不说现在的国内的科研水平简直是傲视国际了,可能是我孤陋寡闻了,头一次见到在输入数据上加噪音可以改变输出动作的动作空间的,这简直是打破了强化学习领域的次元壁了,真的是太伟大的发现了,神奇,神奇,神奇!!!



image

PS:

这也是头一次听说,强化学习算法输入的状态,输入的动作,然后还可以接着把输入的动作当做状态重新输入回去再生成新的动作的,太牛了,这idea太超前了。这里就不说这里的actor网络和critic网络都是使用同一个参数表示的这种小问题了,这个伪代码表示的算法流程已然惊艳了。





论文灌水嘛,很正常,也很常见,谁又能保证不灌水呢。但是,灌水和造假还是不一样的,灌水嘛,大家一看也就懂,大家也都明白,但是假的却不一样了,不熟悉的人还真分不清这东西到底有没有问题,但是要知道假的东西坑人呢,不仅要你多走弯路还耽误你时间。看来国内的论文的质量还是有待提高呀。


posted on 2024-12-02 18:38  Angry_Panda  阅读(134)  评论(2编辑  收藏  举报

导航