语料库论文阅读- - 马儿慢些走

利用大模型翻译论文集的摘要列表

摘要：利用大模型翻译论文集的摘要列表看论文的时候发现可以把论文摘要的列表用大模型一次性翻译导出到Markdown，再导入笔记软件。举例：Transactions of the Association for Computational Linguistics, Volume 12 - ACL Anth 阅读全文

posted @ 2024-08-01 08:00 马儿慢些走阅读(134) 评论(0) 推荐(0)

【202304】MiniPile：面向数据高效的语言模型挑战

摘要：全文很短，但是值得注意的部分： 1. 对大规模数据通过语义聚类实现去重的必要性。 2. 人工筛选聚类的时候排除了哪些类型的聚类。 3. 本文大比例地数据筛选，实验数据仅在BERT、T5小模型上实现，在更大模型上是否存在变化？阅读全文

posted @ 2025-05-21 15:52 马儿慢些走阅读(139) 评论(0) 推荐(0)

【202411】Zyda-2：一个包含五万亿标记的高质量数据集

摘要：关注几个问题： - 通过交叉混合几个公开数据集制作更高质量的数据集； - 数据集中的文档去重到底有用吗？模型过滤呢？ - 交叉去重时候使用的方案：基于词袋的哈希计算相似度、构建无向图生成聚类。阅读全文

posted @ 2025-05-21 17:37 马儿慢些走阅读(124) 评论(0) 推荐(0)

【202412】Nemotron-CC：将CC转化为精炼的长距离预训练数据集

摘要：关注以下几点：模型过滤和启发式过滤的选择。多个质量分类器的使用和集成。通过改写合成数据。阅读全文

posted @ 2025-05-22 09:38 马儿慢些走阅读(225) 评论(0) 推荐(0)

【202406】预训练器的数据指南：衡量数据年龄、领域覆盖、质量和毒性的影响

摘要：- 值得注意的内容： - 数据年龄问题，表面上越新越好，训练数据比评估数据旧就会导致性能下降。 - 但是，评估的内容是具有时间标签的，理所应当当然需要更新的模型来理解。 - 时间退化概念，本文之前就有人提出，2022年。 - 领域覆盖：多样性很重要。 - 质量和毒性的影响：质量和毒性是两个维度，质量过滤很必要，毒性过滤不一定。 - 质量是一个很复杂的概念，模型的毒性生成和毒性识别能力需要平衡。 - 附录里有很多很详细的内容，看不过来了。阅读全文

posted @ 2025-05-23 17:29 马儿慢些走阅读(69) 评论(0) 推荐(0)

【202501】REGMIX：将数据混合作为回归任务用于语言模型预训练

摘要：值得关注的： - 数据混合过程能用于制备语料库或者数据集吗？ - 关键假设：数据混合排名的不变性，这个假设让作者通过1M小模型的训练来收集数据混合的样本，训练混合预测器后在1B模型上验证。作者的实验使用了1M、60M和1B模型来验证假设，更大规模的模型是否有变化。 - 作者的发现是数据混合的部分规律难以直观理解，说明了模型预测的作用。 - 实验基本上基于数据源的混合完成，更细粒度的实验也有但是对样本的重新聚类是个麻烦的事情。 - 相关工作中提到本文方法是一种离线选择，还有在训练过程中的在线选择。阅读全文

posted @ 2025-05-27 17:06 马儿慢些走阅读(268) 评论(0) 推荐(0)

DataComp-LM (DCLM) 项目仓库说明

摘要：2025年5月29日：针对 [mlfoundations/dclm: DataComp for Language Models](https://github.com/mlfoundations/dclm) 的说明进行全文翻译。好的，以下是该网页的正文内容翻译：看起来整套流程能利用上的是分词、洗牌、训练和评估，前面的数据处理部分不一定用DCLM的数据处理工具，会有自己的流程。本篇最后一章节展示的用 DCLM 基线训练 1B 模型过程就符合当前需求，数据集（语料）是提前制作好的，评估流程涉及分词、洗牌、训练和评估。阅读全文

posted @ 2025-06-03 14:10 马儿慢些走阅读(276) 评论(0) 推荐(0)

OpenLM语言建模（LM）代码库说明

摘要：OpenLM代码库说明，DCLM数据集评估的项目引用这份仓库进行数据处理、模型训练和评估。注意和Megatron-LM的区别。 https://github.com/mlfoundations/open_lm 2025年6月4日以下是网页正文部分的中文翻译：阅读全文

posted @ 2025-06-04 16:21 马儿慢些走阅读(131) 评论(0) 推荐(0)

【202503】基于 LM-Polygraph 的大语言模型不确定性量化基准测试综合分析

摘要：研究主题：对大型语言模型（LLMs）的不确定性量化（Uncertainty Quantification, UQ）方法进行基准测试。核心内容：引入了一个新的基准测试，该基准基于 LM-Polygraph 框架，旨在对LLM在各种文本生成任务（如选择性问答、选择性生成、声明级事实核查）中的UQ技术进行可控且一致的评估。(“大语言模型的不确定性量化”就是对模型和任务的一种评估，本文是对评估方法的评估。) 方法与评估：实现了最先进的UQ基线集合，并支持评估置信度归一化方法（Normalization Methods）的解释性。作者通过该基准对UQ和归一化技术进行了大规模实证研究，涵盖了十一个数据集，并确定了最有效的方法。目标：解决当前LLM UQ研究中技术和评估方法分散的问题，为研究人员提供一个更可靠、一致的评估环境。阅读全文

posted @ 2025-12-16 16:26 马儿慢些走阅读(130) 评论(0) 推荐(0)

【260225】关于 FIRE 框架及其在科学语料制备中应用的讨论纪要

摘要：本文为和 DeepSeek 的对话记录，经过 DeepSeek 的整理再生成，仅供参考。 [2502.00761] FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training https://chat.d 阅读全文

posted @ 2026-02-25 17:19 马儿慢些走阅读(8) 评论(0) 推荐(0)

马儿慢些走

合集-语料库论文阅读