Hugging Face 博客

Docmatix - 超大文档视觉问答数据集

摘要：本文，我们将发布 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集，比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时，消融实验显示 DocVQA 任务的性能提高了 20%。 Docmatix 数据集样本示例缘起于丹鼎 (The Caul 阅读全文

posted @ 2024-08-30 15:20 HuggingFace 阅读(289) 评论(0) 推荐(0) 编辑

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

摘要：过去的几个月，我们目睹了使用基于 transformer 模型作为扩散模型的主干网络来进行高分辨率文生图 (text-to-image，T2I) 的趋势。和一开始的许多扩散模型普遍使用 UNet 架构不同，这些模型使用 transformer 架构作为扩散过程的主模型。由于 transformer 阅读全文

posted @ 2024-08-30 14:28 HuggingFace 阅读(422) 评论(0) 推荐(1) 编辑

ggml 简介

摘要：ggml 是一个用 C 和 C++ 编写、专注于 Transformer 架构模型推理的机器学习库。该项目完全开源，处于活跃的开发阶段，开发社区也在不断壮大。ggml 和 PyTorch、TensorFlow 等机器学习库比较相似，但由于目前处于开发的早期阶段，一些底层设计仍在不断改进中。相比于阅读全文

posted @ 2024-08-29 22:20 HuggingFace 阅读(884) 评论(0) 推荐(1) 编辑

TGI 多-LoRA: 部署一次，搞定 30 个模型的推理服务

摘要：

你是否已厌倦管理多个 AI 模型所带来的复杂性和高成本？那么，如果你可以部署一次就搞定 30 个模型推理服务会如何？在当今的 ML 世界中，哪些希望充分发挥其数据的价值的组织可能最终会进入一个“微调的世界”。在这个世界，各个组织会构建大量模型，其中每个模型都针对特定任务进行了高度特化。但是，如阅读全文

posted @ 2024-08-12 22:40 HuggingFace 阅读(1185) 评论(0) 推荐(1) 编辑

XetHub 加入 Hugging Face！

摘要：

我们非常激动地正式宣布，Hugging Face 已收购 XetHub 🔥 XetHub 是一家位于西雅图的公司，由 Yucheng Low、Ajit Banerjee 和 Rajat Arya 创立，他们之前在 Apple 工作，构建和扩展了 Apple 的内部机器学习基础设施。XetHub 的阅读全文

posted @ 2024-08-09 20:38 HuggingFace 阅读(58) 评论(0) 推荐(0) 编辑

NuminaMath 是如何荣膺首届 AIMO 进步奖的？

摘要：

今年，Numina 和 Hugging Face 合作角逐 AI 数学奥林匹克 (AI Math Olympiad，AIMO) 的首届进步奖。此次比赛旨在对开放 LLM 进行微调，以使其能解决高中难度的国际数学奥林匹克训练题。我们很高兴向大家报告: 我们的模型 - NuminaMath 7B TIR 阅读全文

posted @ 2024-08-09 20:28 HuggingFace 阅读(497) 评论(0) 推荐(1) 编辑

SmolLM: 一个超快速、超高性能的小模型集合

摘要：简介本文将介绍 SmolLM。它集合了一系列最尖端的 135M、360M、1.7B 参数量的小模型，这些模型均在一个全新的高质量数据集上训练。本文将介绍数据整理、模型评测、使用方法等相关过程。引言近期，人们对能在本地设备上运行的小语言模型的兴趣日渐增长。这一趋势不仅激发了相关业者对蒸馏或量化等阅读全文

posted @ 2024-08-03 09:22 HuggingFace 阅读(1842) 评论(0) 推荐(1) 编辑

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

摘要：在发布 Gemma 2 一个月后，Google 扩展了其 Gemma 模型系列，新增了以下几款： Gemma 2 2B - 这是 Gemma 2 的 2.6B 参数版本，是设备端使用的理想选择。 ShieldGemma - 一系列安全分类器，基于 Gemma 2 训练，用于开发者过滤其应用程序的输入阅读全文

posted @ 2024-08-03 08:57 HuggingFace 阅读(549) 评论(0) 推荐(0) 编辑

在 Hub 上使用 Presidio 进行自动 PII 检测实验

摘要：我们在 Hugging Face Hub 上托管的机器学习 (ML) 数据集中发现了一个引人关注的现象: 包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。在本篇博客中，我们将深入探讨含有一种称为个人识别信息 (PII) 的私密信息的各类数据集，分析这些数据集存在的问题，并介阅读全文

posted @ 2024-07-31 23:02 HuggingFace 阅读(185) 评论(0) 推荐(0) 编辑

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

摘要：Llama 3.1 发布了！今天我们迎来了 Llama 家族的新成员 Llama 3.1 进入 Hugging Face 平台。我们很高兴与 Meta 合作，确保在 Hugging Face 生态系统中实现最佳集成。Hub 上现有八个开源权重模型 (3 个基础模型和 5 个微调模型)。 Llama 阅读全文

posted @ 2024-07-26 00:02 HuggingFace 阅读(6880) 评论(1) 推荐(2) 编辑

在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

摘要：引言蛋白质语言模型 (Protein Language Models, PLM) 已成为蛋白质结构与功能预测及设计的有力工具。在 2023 年国际机器学习会议 (ICML) 上，MILA 和英特尔实验室联合发布了 ProtST 模型，该模型是个可基于文本提示设计蛋白质的多模态模型。此后，ProtS 阅读全文

posted @ 2024-07-25 00:20 HuggingFace 阅读(151) 评论(0) 推荐(0) 编辑

为视觉语言多模态模型进行偏好优化

摘要：

为视觉语言多模态模型进行偏好优化训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本，因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种阅读全文

posted @ 2024-07-16 23:08 HuggingFace 阅读(845) 评论(0) 推荐(4) 编辑

微调 Florence-2 - 微软的尖端视觉语言模型

摘要：

Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力，因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现出色。 Florence 开箱即用支持多种类型的任务，包括: 看图说话、目标检测、OCR 等等。虽然覆盖面很广，但仍有可阅读全文

posted @ 2024-07-15 19:17 HuggingFace 阅读(1715) 评论(0) 推荐(0) 编辑

GAIA: 一个严苛的智能体基准

摘要：

简要概括经过一些实验，我们对 Transformers 智能体构建智能体系统的性能印象深刻，因此我们想看看它有多好！我们使用一个用库构建的代码智能体在 GAIA 基准上进行测试，这可以说是最困难、最全面的智能体基准测试……最终我们取得了第一名的成绩！ GAIA: 一个严苛的智能体基准什么是智阅读全文

posted @ 2024-07-09 11:26 HuggingFace 阅读(662) 评论(1) 推荐(0) 编辑

Hugging Face 全球政策负责人首次参加WAIC 2024 前沿 AI 安全和治理论坛

摘要：

Hugging Face 全球政策负责人艾琳-索莱曼（ Irene Solaiman ）将参加7月5日在上海举办的WAIC-前沿人工智能安全和治理论坛，并在现场进行主旨演讲和参加圆桌讨论。具体时间信息如下：主旨演讲：开源治理的国际影响时间｜ 7月5日下午15:35 - 15:50 圆桌讨论：阅读全文

posted @ 2024-07-04 18:23 HuggingFace 阅读(25) 评论(0) 推荐(0) 编辑

Cosmopedia: 如何为预训练构建大规模合成数据集

摘要：

本文概述了我们在生成含数十亿词元的合成数据集以复现 Phi-1.5 过程中所遇到的挑战及其解决方案，由此最终创建了 Cosmopedia 合成数据集。合成数据已成为机器学习社区的 C 位话题，其题中之义是用人工 (如使用大语言模型 (LLM)) 生成的数据模拟真实数据。传统上，构建用于有监督微调和阅读全文

posted @ 2024-07-03 16:35 HuggingFace 阅读(1204) 评论(0) 推荐(0) 编辑

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

摘要：

这个夏天，THUNLP 携手 Hugging Face 和 OpenBMB，推出大模型公开课第二季。在大模型公开课第二季中，将有全球知名开源社区 OpenBMB X Hugging Face 梦幻联动；MiniCPM、ChatDev、Ultra对齐等明星开源项目作者亲自授课，带领同学从深度学习开阅读全文

posted @ 2024-07-03 16:03 HuggingFace 阅读(118) 评论(0) 推荐(0) 编辑

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

摘要：HumanEval 是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准，因为它使得对紧凑的函数级代码片段的评估变得容易。然而，关于其在评估 LLM 编程能力方面的有效性越来越多的担忧，主要问题是HumanEval 中的任务太简单，可能不能代表真实世界的编程任务。相比于 HumanEv 阅读全文

posted @ 2024-07-01 12:03 HuggingFace 阅读(989) 评论(0) 推荐(0) 编辑

Google 发布最新开放大语言模型 Gemma 2，现已登陆 Hugging Face Hub

摘要：

Google 发布了最新的开放大语言模型 Gemma 2，我们非常高兴与 Google 合作，确保其在 Hugging Face 生态系统中的最佳集成。你可以在 Hub 上找到 4 个开源模型（2 个基础模型和 2 个微调模型）。发布的功能和集成包括： Hub 上的模型 Hugging Face T 阅读全文

posted @ 2024-06-28 08:12 HuggingFace 阅读(2044) 评论(0) 推荐(1) 编辑

Hugging Face Accelerate 两个后端的故事：FSDP 与 DeepSpeed

摘要：

社区中有两个流行的零冗余优化器（Zero Redundancy Optimizer，ZeRO）算法实现，一个来自 DeepSpeed，另一个来自 PyTorch。Hugging Face Accelerate 对这两者都进行了集成并通过接口暴露出来，以供最终用户在训练/微调模型时自主选择其中之一阅读全文

posted @ 2024-06-27 23:32 HuggingFace 阅读(1340) 评论(0) 推荐(1) 编辑

The AI community building the future.

随笔分类 - Hugging Face 博客

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论