2.APSI - 22022-04-07

3.基于同态加密的PSI开源库-12022-04-21 4.隐私集合求交（PSI）-多方2022-04-19 5.隐私集合求交（PSI）-两方2022-04-17 6.APSI - 02022-03-15 7.Multiparty Cardinality Testing for Threshold Private Set-2021：解读2022-06-30 8.The Communication Complexity of Threshold Private Set Intersection-2019：解读2022-06-23 9.Improved Security for a Ring-Based Fully Homomorphic Encryption Scheme-2013：解读2022-06-14 10.Simple, Fast Malicious Multiparty Private Set Intersection-解读2022-06-03 11.Scalable Multi-Party Private Set-Intersection-解读2022-05-30 12.集合交集问题的安全计算：解读2022-05-24 13.Fast Secure Computation of Set Intersection -解读2022-05-12 14.云环境下集合隐私计算-解读2022-04-28 15.KKRT-PSI2023-05-25 16.【隐私计算笔谈】MPC系列专题（十）：安全多方计算下的集合运算2023-01-17 17.VOLE+OKVS的PSI技术落地应用2022-12-01 18.Multi-Party Threshold Private Set Intersection with Sublinear Communication-2021:解读2022-08-01 19.数据安全与隐私计算峰会-安全求交集在隐私计算中的发展和应用：学习2022-07-29 20.云辅助隐私集合求交（Server-Aided PSI）协议介绍：学习2022-06-27

上一篇 APSI-1 其实就是对开源库README文件的一个翻译加上自己的一点点理解，因为篇幅过大，导致继续编辑有些卡顿，所以新开一篇继续。
前面介绍了APSI的大致技术、优化方法、以及举例说明了主要流程（unbalanced-PSI）。
下面主要介绍labeled-PSI！

Labeled Mode#

Basic Idea#

label模式和前面讲的没有太大区别，但需要一些额外的解释。receiver除了想要知道其查询项是否在sender的集合中之外，还想知道发送方与这些项关联的数据，即交集数据对应的label。（sender中存储的数据视为key-value）。

换成人话，就是sender中存储的都是key-value型的数据，而receiver中只有key，receiver想通过输入key，得到sender中匹配到的value值。即【带关键词的PIR】。论文和APSI中使用的是{item - lable}表示！

为了理解labled-APSI的工作原理，回顾前面讲到的Basic Idea，在对receiver发过来的加密查询项 $Q$ 进行计算时，匹配多项式 $M (x)$ 的输出要么是0的加密（匹配上），要么是非0的加密（没有匹配）。在labled-PSI中，sender会创建另外一个多项式 $L (x)$ ，即插值多项式，具有以下性质：如果 $(Y_{i}, V_{i})$ 表示sender得数据集，则 $L (Y_{i}) = V_{i}$ ，收到receiver发送过来的Q，sender计算多项式对 $((M (Q), L (Q))$ ，并将结果返回给receiver；receiver解密该结果对，观察第一个值是否为0，如果是，则第二个值即是所需的label！

Large Labels#

一个较大的问题，就是所有的密文计算都需要模plain_modulus，但是sender的lable比这个要长的多。对于比较长的item，在Large Items中，首先先讲item通过hash，生成一个大小为（80-128 bit）的hash值【控制item的长度】，然后经过一系列的batch，对其编码。这种方法也适用于解决lable过长的问题。也就是说，lable可以被分解成类似于item的小部分，对于每个部分，我们可以形成一个lable插值多项式，当对所对应的item进行评估时，输出lable的该部分。

这还不是一个令人满意的解决方案，因为我们的item没有固定的大小，而且非常长（最大128位）。lable比item长，lable可以分成多个部分，每一部分的长度为item的长度。对于每个部分，我们可以构造一个单独的标签插值多项式，在加密查询中对它们进行求值，并将每个加密结果返回给receiver。receiver解密结果并连接它们，以恢复匹配项的lable。

Label Encryption#

上述方法存在一个必须解决的严重问题。回想一下我们是如何使用OPRF来防止sender的item部分（或全部）泄漏给receiver的：给出一个item $Y$ ，匹配多项式不能直接计算 $Y$ ，而是计算 $I t e m H a s h (s, Y)$ ，这表示item Y所对应的OPRF值 $O P R F (s, Y)$ 的前128 bit，这就意味着标签插值多项式L应该满足 $L (I t e m H a s h (s, Y_{i})) = V_{i}$ 对于sender的每一个item $Y_{i}$ ，然而receiver能够猜出一些 $I t e m H a s h (s, Y_{i})$ ，就可以查询出其所对应的lable，这是不能接受的，因为receiver是不能知道item $Y_{i}$ 。

上面的意思在论文中，其实就是将OPRF的值分为两部分，一部分用于计算求交多项式，这里label没有加密，所以不安全。下面讲的是另外一部分用于加密label。
要明白： $I t e m H a s h (s, Y)$ 表示 $O P R F （ S ， Y ）$ 的前128bit；插值多项式 $L (I t e m H a s h (s, Y_{i})) = V_{i}$ ；

为了解决这个问题，sender使用了一个对称加密函数 $E n c (< i n p u t >, < k e y >, < n o n c e >)$ 使用来自 $O P R F (s, Y_{i})$ 的输出的另外一部分加密 $l a b e l V_{i}$ 。具体来说，加密密钥为 $L a b e l K e y (s, Y_{i}) ， l a b e l ： V_{i} ， i t e m ： Y_{i}$ ，是256 bit的输出 $O P R F (s, Y_{i})$ 的剩余128bit。因此发送给receiver的label就变成了 $E n c (V_{i}, L a b e l K e y (s, Y_{i}), n o n c e)$ 。

$L a b e l K e y (s, Y_{i})$ 表示 $O P R F (s, Y_{i})$ 的剩余128bit；

还有一些问题，因为receiver一定是想知道些什么nonce【半诚实的receiver】。第一种选择是选择使用常量或空的nonce（没有随机数）。这种情况下，必须注意，对手可能辨别出两个不同的加密label，其中两个label对应的是同一个item，使用的是相同的OPRF的key：s，这样就有可能得到关于label的相关信息。这种情况会发生，因为APSI支持更新item的label。
另一种选择是使用随机生成的长nonce（每次加密都不同）。APSI的实现是随机采样一个nonce，和加密的 $V_{i}$ 拼接在一起。具体来说，sender为每一个 $i t e m Y_{i}$ 随机采样一个nonce，然后计算出插值多项式 $L (I t e m H a s h (s, Y_{i})) = n o n c e$ ，然后与加密的 $V_{i}$ 拼接： $L (I t e m H a s h (s, Y_{i})) = n o n c e | E n c (V_{i}, L a b e l K e y (s, Y_{i}), n o n c e)$

nonce 理解为随机数吧

receiver从sender那里得到一些加密的label，没有任何作用，除非他知道对应的item $Y_{i}$ 。此外即使receiver通过猜测 $I t e m H a s h (s, Y_{i})$ 获得了 $n o n c e | E n c (V_{i}, L a b e l K e y (s, Y_{i}), n o n c e)$ ，在离线攻击中，枚举出所有的item： $Y_{i}$ ，他仍然无法获得label，因为 $L a b e l K e y (s, Y_{i})$ 是从 $O P R F (s, Y_{i})$ 中获得的，而不是 $Y_{i}$ 。

APSI允许sender指定nonce的字节大小，默认的nonce单位16 字节，但是值越小，性能越好！

Partial Item Collisions#

还有一个必须要解决的问题：回顾Pracice，sender构造一个大的hash表，并将其分解成多个锯齿状的bin bundles。在label-PSI中，每一个bin bundles不仅包含item的part，也包含对应的label的part，以及标签插值多项式。标签插值多项式不是为整个label创建的，而是对label的part分别创建，即使将整个item分解为part前会加密。

现在看一下发生了什么：item416-part1 和 item12-part1是相同的，如果其所对应的标签label416-part1 和 label12-part1是不同的，则创建一个插值多项式L是不可能的，因为不能针对一个item而输出两个label416-part1 和 label12-part1。【疑惑，插值多项式是插值的item的位置？】

在将item插入bin bundle之前，先检查一下label是否已经出现在相同的位置，就能解决这个问题。如果已经存在，那么该item就不能插入到该bin bundle，而是新建一个bin bundle，再插入。该问题只在label-PSI下存在，会导致比unlabeled-PSI有更差的打包率（items_inserted / theoretical_max）。

最后附上当时整理的笔记：