2022年8月的10篇论文推荐

很久没有推荐论文了，但是在推荐新论文之前，首先推荐一个新闻：

谷歌分享了公司内部如何使用代码生成案例，3%的新代码是由语言模型(Language Model)、DeepSpeed (DeepSpeed)编写的，通过语言模型生成代码的智能建议，建议接受率约为25%，减少了6%的编码迭代时间，平均每个接受的建议为21个字符：

https://ai.googleblog.com/2022/07/ml-enhanced-code-completion-improves.html

这才是AI在真实世界的应用，并且正在向着更好的方向前进，而不是像某些人成天吹嘘的替代这个、替代那个。

我们回到正题，本次推荐的10篇论文包括：强化学习(RL)、缩放定律、信息检索、语言模型等。

1、Beyond neural scaling laws: beating power law scaling via data pruning

Ben Sorscher, Robert Geirhos, Shashank Shekhar, Surya Ganguli, Ari S. Morcos.

https://arxiv.org/abs/2206.14486

缩放定律是现代神经网络中普遍存在的经验现象，其中误差被认为是训练集大小、模型大小或两者的幂次。有一些人认为他是正确的，并且设计了一个专注于扩大规模的研究方向。但还有大部分人认为，一定有办法在不超大规模的模型和数据的情况下建立更好的模型。这篇论文探讨了一种能够提高神经网络性能，“战胜”缩放定律的数据剪枝技术。

在这项工作的背景下，剪枝是指从训练数据集中删除训练数据样本而不是修剪神经网络的权重。提出的方法背后的理论很简单：可以在“易于学习”到“难以学习”的训练数据集中对样本进行排名。一个典型的数据集将包含太多易于学习的样本——也就是说，更少的样本就足以在这些样本上达到良好的性能——而来自难以学习的样本又太少——这意味着需要更多的样本来适当地训练模型。

解决这个问题的一种方法是扩大整个训练数据集的规模，因为给定足够大的规模——假设数据分布是均匀的——最终你会得到足够多的“难以学习”的样本。但这是非常浪费的。如果我们可以使用先验来确定一个包含易于学习和难以学习样本的更好平衡的训练数据集，结果会怎么样呢?这就是这篇论文所研究的问题。

这个问题可以形式化为试图找到一个修剪度量分配给每个训练样本，然后根据该度量排序并修剪训练数据集到所需的大小。他们在这篇论文中提出了一个新的衡量标准，可以与现有的需要标记数据的工作相媲美。

这篇论文中最有趣的贡献是他们关于无标签数据修剪的部分。他们对预训练的ImageNet模型的嵌入进行k-means聚类，并将每个样本的“硬度”定义为其到最近的质心的距离:容易学习的原型样本将最接近质心，而难以学习的样本将远离它们簇的质心。结果表明，大约20%的ImageNet训练样本可以在不牺牲性能的情况下进行修剪。

这篇论文的结果并不令人瞠目，但它背后的关键思想有可能在其他任务中有用，如图像分割、语言建模或任何其他多模态数据集管理。