园龄：1年8个月粉丝：2 关注：0

书生浦语--第一节作业

Smiling & Weeping

　　　　　　　　　　　　　　　　　　---- 人生是用来体验的，不是用来后悔的

　　该篇论文可以总结如下：

数据筛选和预训练：
- 论文中提到使用了两个分类器进行数据的次级筛选，剔除得分低于阈值的数据，从而获得高质量的预训练数据。
- 编程数据对于LLM至关重要，因为它支持各种下游应用，如编码辅助、软件开发和构建工具使用代理。Groeneveld等人（2024）还提出通过训练代码数据来增强推理能力的可能性，因为代码通常比自然语言更加结构化、严谨和可预测。
数据源分布：
- 数据从不同来源收集，包括直接从GitHub爬取、公共数据集和与编程相关的在线资源，如Q&A论坛、教程网站和API文档。
数据质量评估：
- 论文提到了一个评分模型，基于该模型对数据进行质量评估。高质量数据将具有更高的采样权重，并在预训练阶段进行多次迭代训练。中等质量数据具有正常的采样权重，通常只训练一次。
训练优化：
- 由于InternEvo（Chen等人，2024a）和flash注意力（Dao，2023）的良好可扩展性，当上下文窗口从4K变化到32K时，训练速度仅下降了40%。
特定能力增强训练：
- 论文强调了推理、数学问题解决和知识记忆等能力是大型语言模型预期的关键能力。然而，在预训练过程中，这些能力相关的高质量数据在整个语料库中稀疏分布，这使得模型难以精通这些能力。
- 为了增强这些能力，作者们收集了一个包含240亿tokens的丰富数据集，其中包括仔细策划的高质量检索数据和来自huggingface datasets平台的多种类型的开源数据。
下游任务的性能评估：
- 论文详细介绍了多个NLP任务的评估协议和性能指标。
- 通过六个关键维度对模型性能进行了评估：（1）综合考试，（2）语言和知识，（3）推理和数学，（4）多种编程语言编码，（5）长上下文建模，（6）工具使用。
实验结果：
- 在一系列与考试相关的数据集上进行了基准测试，包括MMLU等多个选择题数据集，涵盖了人文学科、社会科学、STEM等领域。
- 在长文本处理方面，使用了LMDeploy Contributors（2023a）推理引擎来加速推理过程，并展示了InternLM2在长上下文建模方面的能力。
工具使用：
- 论文还分析了InternLM2在工具使用方面的熟练程度，通过在几个基准数据集上的实验，包括GSM8K、Math、MathBench、T-Eval和CIBench的模板子集。
条件奖励模型的消融研究：
- 为了验证条件系统提示的影响，比较了在不同领域数据上训练的奖励模型在有无条件系统提示的情况下的表现。结果表明，没有系统提示会导致在多个公开数据集上的精度显著下降。