摘要:
基础概念 这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是评估模型? 评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它 阅读全文
摘要:
基础概念 这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是评估模型? 评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它 阅读全文
摘要:
一些评估测试集 这是 自动评估基准 系列文章的第三篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 如果你感兴趣的任务已经得到充分研究,很可能评估数据集已经存在了。 下面列出了一些近年来开发构建的评估数据集。需要注意的是: 大部分数据集有些 “过时”,因为它们是在 阅读全文
摘要:
过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难 阅读全文
摘要:
过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难 阅读全文
摘要:
设计你的自动评估任务 这是 自动评估基准 系列文章的第二篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 选择数据集 做评估时,你可以选择现有的数据集 (参考 一些评估数据集 页面) 作为测试集,也可以设计自己的数据集。有一点非常重要,请注意:评估的结果与评估的数据 阅读全文
摘要:
基础概念 这是 自动评估基准 系列文章的第一篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 注:本文内容与我写的 通用评估博客 存在部分重叠 什么是自动评估基准? 自动化基准测试通常按照以下方式工作:你希望了解你的模型在某些方面的表现。这些“某些方面”可以是一个明 阅读全文
摘要:
技巧与提示 这是 人工评估 系列文章的第三篇《技巧与提示》,全系列包括: 基础概念 人工标注员 技巧与提示 建议阅读本文之前先阅读 "Using human annotators" 部分。本文将介绍使用人工标注构建评估数据集时的一些实用建议。 任务设计 简单至上:标注任务避免不必要的复杂。将标注员的 阅读全文
摘要:
我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本。与其前代产品一样,PaliGemma 2 使用强大的 SigLIP 进行视觉处理,但在文本解码部分升级到了最新的 Gemma 2。 模型规模和输入分辨率 PaliGemma 2 提供了新 阅读全文
摘要:
这次我们的 LeRobot 团队联合 @therobotstudio 和 @NepYope 打造了全新腱驱动(Tendon-driven)技术,以快、更准、更灵活的超凡表现,让机器人手部控制进入全新时代! 💡 当前该机器手的自由度:手部16,手臂 7。 💵 机器手价格不超过450美元 最让人激动 阅读全文