goldfish loss：减少训练数据泄漏，提高大语言模型输出的多样性

LLMs（大型语言模型）能够记忆并重复它们的训练数据，这可能会带来隐私和版权风险。为了减轻记忆现象，论文作者引入了一种名为"goldfish loss"的微妙修改，在训练过程中，随机抽样的一部分标记被排除在损失计算之外。这些被舍弃的标记不会被模型记忆，从而防止模型完整复制训练集中的一整个标记序列。