01 2025 档案
摘要:
基础概念 这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是评估模型? 评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它
阅读全文
![让 LLM 来评判 | 选择 LLM 评估模型](https://img2024.cnblogs.com/blog/3075972/202501/3075972-20250114150426719-334269174.png)
摘要:基础概念 这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是评估模型? 评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它
阅读全文
摘要:
一些评估测试集 这是 自动评估基准 系列文章的第三篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 如果你感兴趣的任务已经得到充分研究,很可能评估数据集已经存在了。 下面列出了一些近年来开发构建的评估数据集。需要注意的是: 大部分数据集有些 “过时”,因为它们是在
阅读全文
![自动评估基准 | 一些评估测试集](https://img2024.cnblogs.com/blog/3075972/202501/3075972-20250108152427707-284999547.png)
摘要:
过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难
阅读全文
![基于开放模型的推理时计算缩放](https://img2024.cnblogs.com/blog/3075972/202501/3075972-20250102121404681-1074569587.png)
摘要:过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难
阅读全文