【论文学习2】 Differential Privacy Reinforcement Learning
原因
强化学习模型释放的参数可能包含敏感信息,并且敌手可能从输出的环境中获取信息,所以要保护环境,保护模型,论文将差分隐私的概念推广到了强化学习上。
- how to formulate the privacy issues in reinforcement learning
- how to design mechanisms that achieve differential privacy in reinforcement learning contexts.
方法
- 在贪心算法中加入指数机制
- 在Softmax算法中加入Laplace机制
最后在多臂赌博机中进行实验,实验显示该方法可行。
问题
1.经过差分隐私定义之后的强化学习是否还可以经过多次训练之后推测出结果?
(未完善,继续更新中。。。)