导航

2024年4月28日

摘要: 清华大学和智谱AI团队研究发现: 大模型的涌现能力与预训练loss的关系比模型参数更紧密。 https://arxiv.org/pdf/2403.15796 这篇论文《从损失角度理解语言模型的涌现能力》通过将预训练损失作为评估指标,强调了在理解和评价语言模型的涌现能力时,损失的重要性可能超过了模型参 阅读全文

posted @ 2024-04-28 10:16 蝈蝈俊 阅读(198) 评论(0) 推荐(0) 编辑

摘要: dmesg(display message)是Linux和Unix系统中的一个命令行工具,用于显示内核与系统硬件交互的消息。运行此命令可能会显示一些关于系统错误或崩溃的信息: 我使用了下面命令, dmesg -T | tail 参数说明: -T:显示人类可读的时间戳,而不是默认的自系统启动以来的秒数 阅读全文

posted @ 2024-04-28 08:45 蝈蝈俊 阅读(188) 评论(0) 推荐(0) 编辑