01 2025 档案

摘要:让 LLM 来评判 | 选择 LLM 评估模型基础概念 这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是评估模型? 评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它 阅读全文
posted @ 2025-01-14 15:31 HuggingFace 阅读(331) 评论(0) 推荐(1) 编辑
摘要:基础概念 这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是评估模型? 评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它 阅读全文
posted @ 2025-01-11 20:43 HuggingFace 阅读(212) 评论(0) 推荐(0) 编辑
摘要:自动评估基准 | 一些评估测试集一些评估测试集 这是 自动评估基准 系列文章的第三篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 如果你感兴趣的任务已经得到充分研究,很可能评估数据集已经存在了。 下面列出了一些近年来开发构建的评估数据集。需要注意的是: 大部分数据集有些 “过时”,因为它们是在 阅读全文
posted @ 2025-01-08 15:27 HuggingFace 阅读(233) 评论(0) 推荐(1) 编辑
摘要:基于开放模型的推理时计算缩放过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难 阅读全文
posted @ 2025-01-02 17:23 HuggingFace 阅读(238) 评论(0) 推荐(1) 编辑
摘要:过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难 阅读全文
posted @ 2025-01-01 00:46 HuggingFace 阅读(187) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示