关于论文《Information Bottleneck Disentanglement for Identity Swapping》中的问题讨论
首先,这篇文章得作者是来自中科院大学的人工智能学院,研究的是换脸任务的解纠缠任务,我应该是在微软亚洲研究院关于CVPR2021的论文预讲听过(没记错的话)。当时论文还没给出下载地址,应该是6月11号以后CVPR2021公开论文后我拿到的文章,早就读完了,一直在忙,今天就来做个总结吧!需要详细细节的还是去看原文
1、文章的一个重要卖点是 Information Bottleneck (简称IB)理论,这个理论早在1999年希伯来大学教授 Tishby提出的,它的提出是作为率失真(Rate Distortion)理论的推广。率失真理论要解决的问题是信号传输的问题,它给定一个在信息传输过程期望保存的信息率R,以及不可避免的信号失真D,用率失真函数R(D)的方式来衡量信号的传输。然而率失真理论一个很大的弊端就在于针对不同的任务不好定义率失真函数,这也一直是在努力的方向
这篇论文的方法看起来还是非常符合国内一贯的研究路线,非常的复杂交错。论文上写的结果还是不错的,不知道各位实际复现的怎么样,但从作者给出的图片肯定是实现了非常好的人脸交换。不过从我与作者(高格格)的邮件请教过程中,发现论文是有两个问题的,第一个问题得到了作者的回答,第二个问题当我再次问的时候,作者没有回答,希望各位读者一起解答一下,是论文错误还是我理解不对!
1、作者提到的笔误问题,发生在公式(15)的上面段落,段落中的P^t_i是笔误,应该写成A^t_i,这个是作者回应了。
2、关于公式(4)中 Z 的分布计算,那个方差没看明白,两个正态分布线性叠加,总的方差前面不应该是系数的平方和嘛?为啥文章写的是1?这里没搞明白。
作者的回答如下:
“给定一张图片,R_i取值固定(预训练网络固定),Z_i的方差来自 varepsilon_i,Z_i|R_i同理;”
按照作者的理解思路,我又提了第二次问题,但是没得到作者的回答,问题如下:
“2、问题二还是不明白,如果按R_i是固定的来说,那么Z_i的分布不就和Z_i|R_i的分布一样了吗?我的理解就是知道R_i的情况下求Z_i的分布,那么就把R_i当成常数就好,这样子Z_i的概率和他的条件概率感觉就是一样的了.......”
邮件发了两次作者一直没回,希望各位读者有见解的也能一起讨论一下,因为一旦这个Z_i计算有误的话这篇文章后面的很多部分都是有问题。
posted on 2021-08-19 14:58 Attack-DrHao 阅读(536) 评论(4) 编辑 收藏 举报