随笔档案「2025年1月」 - HuggingFace

摘要：

基础概念这是让 LLM 来评判系列文章的第一篇，敬请关注系列文章: 基础概念选择 LLM 评估模型设计你自己的评估 prompt 评估你的评估结果奖励模型相关内容技巧与提示什么是评估模型？评估模型 (Judge models) 是一种用于评估其他神经网络的神经网络。大多数情况下它阅读全文

posted @ 2025-01-14 15:31 HuggingFace 阅读(796) 评论(0) 推荐(1)

让 LLM 来评判 | 基础概念

摘要：基础概念这是让 LLM 来评判系列文章的第一篇，敬请关注系列文章: 基础概念选择 LLM 评估模型设计你自己的评估 prompt 评估你的评估结果奖励模型相关内容技巧与提示什么是评估模型？评估模型 (Judge models) 是一种用于评估其他神经网络的神经网络。大多数情况下它阅读全文

posted @ 2025-01-11 20:43 HuggingFace 阅读(496) 评论(0) 推荐(0)

自动评估基准 | 一些评估测试集

摘要：

一些评估测试集这是自动评估基准系列文章的第三篇，敬请关注系列文章: 基础概念设计你的自动评估任务一些评估测试集技巧与提示如果你感兴趣的任务已经得到充分研究，很可能评估数据集已经存在了。下面列出了一些近年来开发构建的评估数据集。需要注意的是：大部分数据集有些 “过时”，因为它们是在阅读全文

posted @ 2025-01-08 15:27 HuggingFace 阅读(1514) 评论(0) 推荐(1)

基于开放模型的推理时计算缩放

摘要：

过去几年，大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效，但预训练更大模型所需的资源变得异常昂贵，数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣，即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算，而是采用动态推理策略，让模型能够对难阅读全文

posted @ 2025-01-02 17:23 HuggingFace 阅读(425) 评论(0) 推荐(1)

自动评估基准 | 技巧与提示

摘要：过去几年，大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效，但预训练更大模型所需的资源变得异常昂贵，数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣，即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算，而是采用动态推理策略，让模型能够对难阅读全文

posted @ 2025-01-01 00:46 HuggingFace 阅读(522) 评论(0) 推荐(0)

Hugging Face 博客

The AI community building the future.

01 2025 档案

公告