What Neural Networks Memorize and Why: Discovering the Long Tail via Influence Estimation

Feldman V. and Zhang C. What neural networks memorize and why: discovering the long tail via influence estimation. In Advances in Neural Information Processing Systems (NIPS), 2020.

关于这篇文章中所提及的对于长尾分布中小样本记忆的必要性的实验说明.

主要内容

在之前的工作中, 作者指出, 对于长尾分布中的小样本数据, 算法A尝试去记忆这些小样本数据对于提高泛化性是非常重要的.

我们定义在算法A和训练集S中, 删除样本(xi,yi)S对于样本z=(x,y)的影响:

infl(A,S,i,z):=PhA(S)[h(x)=y]PhA(Si)[h(x)=y],

这里$S\setminus i S(x_i, y_i).,,,\mathcal{A}(x_i, y_i)h(x, y).,(x_i, y_i), (x, y)$相近且都是小样本的情况下.

(x,y)=(xi,yi)的时候, 可以理解为拟合该样本是否需要'记忆'它, 其值为

mem(A,S,i)=infl(A,S,i,(xi,yi)).

一种简便的估计方法

想要对每一对样本都估计出上述的值是非常耗时的, 因为这意味这为了每一个值我们要反复运行算法多次以保证结果的方差不会太大.
文中作者给出了一个较为快速的估计方式:

(1)infl(A,S,i,z):=EIP([n]{i},m1)[infl(A,SI{i},i,z)].

这里:

[n]={1,2,,n}SI=(xi,yi)iI,

对于任意的J[n], P(J,m)表示从J中等可能地不放回地抽取m次过程的分布.

有如下引理来衡量该方法的估计的方差:

如果光看公式(1)可能还是觉得超级超级麻烦的, 但是实际的算法是从证明过程中启发得到的, 实际的算法如下:

  1. [n]中采样大小为m的子集t次: I1,I2,,It.
  2. 各自在SIk上训练得到拟合的函数hk,k=1,2,,t.

接下来, 对于任意的i, 将上述子集分割成Ai,Bi:

Ai={k:iIk},Bi={k:iIk}.

inflm(A,S,i,z):=|{kAi:hk(x)=y}||Ai||{kBi:hk(x)=y}||Bi|.

显然, 该算法只要求我们估计模型共t次, 虽然文中采取的t=2000也是相当耗时的.

如果通过原文的证明可以发现, |{kAi:hk(x)=y}||Ai||{kBi:hk(x)=y}||Bi|分别是

EIP([n]{i},m1)[PhA(SI{i})[h(x)=y]]

EIP([n]{i},m1)[PhA(SI)[h(x)=y]]

的估计.

注: 对于任意|Ai|或者|Bi为0的, 对应的估计取为12.

被记忆的样本所产生的边际效用

如果这些小样本非常重要, 那么如果我们在拟合的时候不去记忆它们应当会产生严重的后果.

  1. 橙色的线就是舍去那些mem值大于一定值后的测试精度;
  2. 蓝色线表示从整个训练集中随机舍去相同数量的样本后的测试精度.
    显然这些小样本非常重要.

注: 蓝色部分表示舍弃这些样本后训练集中还剩下样本的比例, 可以发现大部分样本都是普通的(特别是对于MNIST这种简单的数据集而言).

不同网络结构下的实验

一个很有意思的问题是: 不同的网络结构(随机因素)对于小样本的记忆功能是否是一致的呢?
文中用了两个指标去衡量不同值的差别, 越大说明越温和.

需要注意的是, 图中的线条都是各网络 vs ResNet50, 另外 ResNet50 vs ResNet50 表示两个不同的初始化.
可以发现, 不同的网络结构的确具有不同的记忆特性, 这些差别主要集中在高infl上, 即那些特别的小样本上. 可以这样理解, 由于这些样本不是通过语义特征来区分的, 所以不同的结构和随机因素便会倾向于不同的记忆方式.

最后一次是否足够用于记忆

很多预训练模型都是将最后一层前作为特征提取器, 之后的作为分类器. 那么问题是, 固定前面的编码器,
仅凭后面的分类器能否记忆这些特殊的小样本呢, 实验给出的答案是不能.

一些示例

posted @   馒头and花卷  阅读(133)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示