2024 年 4月 28 日随笔档案 - 蝈蝈俊

2024年4月28日

大模型的涌现能力与预训练loss的关系比模型参数更紧密

摘要：清华大学和智谱AI团队研究发现: 大模型的涌现能力与预训练loss的关系比模型参数更紧密。 https://arxiv.org/pdf/2403.15796 这篇论文《从损失角度理解语言模型的涌现能力》通过将预训练损失作为评估指标，强调了在理解和评价语言模型的涌现能力时，损失的重要性可能超过了模型参阅读全文

posted @ 2024-04-28 10:16 蝈蝈俊阅读(198) 评论(0) 推荐(0) 编辑

使用dmesg发现程序出现Out of memory的Case

摘要： dmesg（display message）是Linux和Unix系统中的一个命令行工具，用于显示内核与系统硬件交互的消息。运行此命令可能会显示一些关于系统错误或崩溃的信息：我使用了下面命令， dmesg -T | tail 参数说明： -T：显示人类可读的时间戳，而不是默认的自系统启动以来的秒数阅读全文

posted @ 2024-04-28 08:45 蝈蝈俊阅读(188) 评论(0) 推荐(0) 编辑

蝈蝈俊的技术心得

导航

公告

大模型的涌现能力与预训练loss的关系比模型参数更紧密

使用dmesg发现程序出现Out of memory的Case