【五期李伟平】CCF-A(CSS'21) Secure Multi-Party Computation of Differentially Private Heavy Hitters

Jonas Böhler and Florian Kerschbaum. 2021. Secure Multi-party Computation of Differentially Private Heavy Hitters. In Proceedings ofthe 2021 ACM SIGSAC Conference on Computer and Communications Security (CCS ’21), November 15–19, 2021, Virtual Event, Republic ofKorea. ACM, New York, NY, USA, 17 pages. https://doi.org/10.1145/3460120.3484557

  本文提出了两个隐私保护下计算重击手(top-k)的算法HH和PEM并用MPC框架MAMBA和MP-SPDZ。
  算法HH在数据流上近似计算top-k,定义一个规模为t的map作为计数器,如果收到的某个数据在map中或者map中有空,则对应的计数器加1,否则全部计数器减1。最后将map中计数器加噪(拉普拉斯),去掉小于噪声阈值的元素后排序输出。算法HH的时间复杂度是线性的,对于小数据集(数百个)具有较高的准确率。
  算法PEM用哈希比较前缀来近似计算top-k,将数据集划分为几个不相交的子数据集,确定一个候选人前缀集合的规模阈值,算法PEM每轮将前缀增加几位bit并处理一个子数据集,处理完所有子数据集后,前缀增加至域位长度。每轮处理子数据集时,首先根据上一轮的候选人前缀数据集枚举本轮的预候选人前缀数据集(增加了几bit);计算预候选人前缀数据集中元素对应的哈希值,并统计子数据集元素的哈希值中有多少与预候选人前缀集合元素的哈希值相同,根据候选人前缀集合的规模阈值,筛选出新的候选人前缀集合。若要输出本轮的候选人前缀集合,则添加噪声(拉普拉斯),然后根据噪声阈值去除部分噪声计数后输出。算法PEM的时间复杂度是次线性的(clogc),在大数据集上具有较高的准确性。
  本文在使用MPC具体实现算法的时候,使用了一些优化方法,使得部分过程可以在本地直接计算的得到,省去了在MPC下通信开销和密态计算开销,提高了效率。
  本文的算法HH在大数据集上的准确性不高,判断可能是减法造成计数器的高震荡,能否考虑通过分层级的方式在不扩大计数器规模的情况下增强稳定性,提高准确率。本文的算法PEM在小数据集上的准确率极低且不能适应数据流,如果子数据集过小或其中的数据分布偏差严重,那么在前面几轮中没有进入候选人前缀集合的元素将不会出现在最终的结果里,可否增加一种反馈机制,使得被筛选出去的元素仍有可能影响后续候选人前缀集合,进而改善这种小数据集上准确率极低的情况并使算法具备处理数据流的可能。

2022年12月16日


posted @ 2022-12-16 17:06  方班隐私保护小组  阅读(98)  评论(0编辑  收藏  举报