What Neural Networks Memorize and Why: Discovering the Long Tail via Influence Estimation
概
关于这篇文章中所提及的对于长尾分布中小样本记忆的必要性的实验说明.
主要内容
在之前的工作中, 作者指出, 对于长尾分布中的小样本数据, 算法尝试去记忆这些小样本数据对于提高泛化性是非常重要的.
我们定义在算法和训练集中, 删除样本对于样本的影响:
这里$S\setminus i S(x_i, y_i)\mathcal{A}(x_i, y_i)h(x, y)(x_i, y_i), (x, y)$相近且都是小样本的情况下.
当的时候, 可以理解为拟合该样本是否需要'记忆'它, 其值为
一种简便的估计方法
想要对每一对样本都估计出上述的值是非常耗时的, 因为这意味这为了每一个值我们要反复运行算法多次以保证结果的方差不会太大.
文中作者给出了一个较为快速的估计方式:
这里:
对于任意的, 表示从中等可能地不放回地抽取次过程的分布.
有如下引理来衡量该方法的估计的方差:
如果光看公式(1)可能还是觉得超级超级麻烦的, 但是实际的算法是从证明过程中启发得到的, 实际的算法如下:
- 从中采样大小为的子集次: .
- 各自在上训练得到拟合的函数.
接下来, 对于任意的, 将上述子集分割成:
则
显然, 该算法只要求我们估计模型共次, 虽然文中采取的也是相当耗时的.
如果通过原文的证明可以发现, 和 分别是
和
的估计.
注: 对于任意或者为0的, 对应的估计取为.
被记忆的样本所产生的边际效用
如果这些小样本非常重要, 那么如果我们在拟合的时候不去记忆它们应当会产生严重的后果.
- 橙色的线就是舍去那些值大于一定值后的测试精度;
- 蓝色线表示从整个训练集中随机舍去相同数量的样本后的测试精度.
显然这些小样本非常重要.
注: 蓝色部分表示舍弃这些样本后训练集中还剩下样本的比例, 可以发现大部分样本都是普通的(特别是对于MNIST这种简单的数据集而言).
不同网络结构下的实验
一个很有意思的问题是: 不同的网络结构(随机因素)对于小样本的记忆功能是否是一致的呢?
文中用了两个指标去衡量不同值的差别, 越大说明越温和.
需要注意的是, 图中的线条都是各网络 vs ResNet50, 另外 ResNet50 vs ResNet50 表示两个不同的初始化.
可以发现, 不同的网络结构的确具有不同的记忆特性, 这些差别主要集中在高上, 即那些特别的小样本上. 可以这样理解, 由于这些样本不是通过语义特征来区分的, 所以不同的结构和随机因素便会倾向于不同的记忆方式.
最后一次是否足够用于记忆
很多预训练模型都是将最后一层前作为特征提取器, 之后的作为分类器. 那么问题是, 固定前面的编码器,
仅凭后面的分类器能否记忆这些特殊的小样本呢, 实验给出的答案是不能.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix