Hugging Face 博客

Reformer 模型 - 突破语言建模的极限

摘要：Reformer 如何在不到 8GB 的内存上训练 50 万个词元 Kitaev、Kaiser 等人于 20202 年引入的 Reformer 模型是迄今为止长序列建模领域内存效率最高的 transformer 模型之一。最近，人们对长序列建模的兴趣激增，仅今年一年，就涌现出了大量的工作，如 B 阅读全文

posted @ 2023-12-27 22:53 HuggingFace 阅读(310) 评论(0) 推荐(0) 编辑

混合专家模型 (MoE) 详解

摘要：随着 Mixtral 8x7B (announcement, model card) 的推出，一种称为混合专家模型 (Mixed Expert Models，简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中，我们将深入探讨 MoEs 的核心组件、训练方阅读全文

posted @ 2023-12-26 22:21 HuggingFace 阅读(3157) 评论(0) 推荐(0) 编辑

3D 高斯点染简介

摘要：3D 高斯点染技术由 3D Gaussian Splatting for Real-Time Radiance Field Rendering 一文首次提出。作为一种栅格化技术，3D 高斯点染可用于实时且逼真地渲染从一小组图像中学到的场景。本文将详细介绍其工作原理并讨论其对图形学的未来会带来什么影响阅读全文

posted @ 2023-12-26 17:29 HuggingFace 阅读(659) 评论(0) 推荐(0) 编辑

Google Colab 环境现已无需手动登录 HF 账号

摘要：前段时间我们介绍了一些 HF 核心库在 Google Colab 环境中的内置，包括可以使用 hf:// 资源标识符来调用 Hub 上的数据集等等，详情可以回顾文章：Google Colab 现已支持直接使用 🤗 transformers 库。今天，随着 huggingface_hub 库的更新阅读全文

posted @ 2023-12-22 19:45 HuggingFace 阅读(62) 评论(0) 推荐(0) 编辑

在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现

摘要：引言自然语言处理 (NLP) 领域的进展日新月异，你方唱罢我登场。因此，在实际场景中，针对特定的任务，我们经常需要对不同的语言模型进行比较，以寻找最适合的模型。本文主要比较 3 个模型: RoBERTa、Mistral-7B 及 Llama-2-7B。我们用它们来解决一个常见问题 —— 对灾难相关阅读全文

posted @ 2023-12-21 16:00 HuggingFace 阅读(998) 评论(0) 推荐(1) 编辑

3D 高斯喷溅 🤗 为什么图形永远不会相同

摘要：高斯喷溅 (Gaussian Splatting) 技术是一种翻天覆地的渲染手段，能够以 144 帧每秒的速度渲染出高质量的场景，这和传统的图形处理流程截然不同 🎨 这种将高斯数据转换成图像的过程，与训练神经网络相似，但由于不包含任何层级，其速度非常快 🌌 这种图形处理流程的革新，就像过去在 3 阅读全文

posted @ 2023-12-16 15:50 HuggingFace 阅读(351) 评论(0) 推荐(0) 编辑

使用 PyTorch FSDP 微调 Llama 2 70B

摘要：引言通过本文，你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中，我们主要会用到 Hugging Face Transformers、Accelerate 和 TRL 库。我们还将展示如何在 SLURM 中使用 Accelerate。完全分片数据并阅读全文

posted @ 2023-12-12 00:39 HuggingFace 阅读(1010) 评论(0) 推荐(1) 编辑

使用 PyTorch 完全分片数据并行技术加速大模型训练

摘要：本文，我们将了解如何基于 PyTorch 最新的完全分片数据并行 (Fully Sharded Data Parallel，FSDP) 功能用 Accelerate 库来训练大模型。动机 🤗 随着机器学习 (ML) 模型的规模、大小和参数量的不断增加，ML 从业者发现在自己的硬件上训练甚至加载阅读全文

posted @ 2023-12-04 20:54 HuggingFace 阅读(1960) 评论(0) 推荐(1) 编辑

Google Colab 现已支持直接使用 🤗 transformers 库

摘要：Google Colab，全称 Colaboratory，是 Google Research 团队开发的一款产品。在 Colab 中，任何人都可以通过浏览器编写和执行任意 Python 代码。它尤其适合机器学习、数据分析和教育目的。从技术上来说，Colab 是一种托管式 Jupyter 笔记本服务。阅读全文

posted @ 2023-12-01 23:06 HuggingFace 阅读(647) 评论(0) 推荐(0) 编辑

Gradio-Lite: 完全在浏览器里运行的无服务器 Gradio

摘要：Gradio 是一个经常用于创建交互式机器学习应用的 Python 库。在以前按照传统方法，如果想对外分享 Gradio 应用，就需要依赖服务器设备和相关资源，而这对于自己部署的开发人员来说并不友好。欢迎 Gradio-lite ( @gradio/lite ): 一个通过 Pyodide 在浏览阅读全文

posted @ 2023-12-01 11:53 HuggingFace 阅读(420) 评论(0) 推荐(1) 编辑

【AI 安全探索】AI 流行的时代，我们应该担心什么？

摘要：视频地址：https://www.bilibili.com/video/BV1eg4y1Q7N5/ 是未来危机，还是眼下的问题？🌍 Sasha Luccioni 是 Hugging Face 团队的道德和可持续人工智能研究员，被邀请做了 TED 演讲 📢 演讲主题也是最近在 AI 伦理道德方面的阅读全文

posted @ 2023-11-28 18:50 HuggingFace 阅读(24) 评论(0) 推荐(0) 编辑

深入理解 BigBird 的块稀疏注意力

摘要：引言基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而，\(O(n^2)\) 的时间和内存复杂度 (其中 \(n\) 是序列长度) 使得在长序列 (\(n > 512\)) 上应用它们变得非常昂贵，因而大大限制了其应用。最近的几篇论文，如 Longformer 、Pe 阅读全文

posted @ 2023-11-24 01:41 HuggingFace 阅读(686) 评论(0) 推荐(0) 编辑

使用 LCM LoRA 4 步完成 SDXL 推理

摘要：LCM 模型通过将原始模型蒸馏为另一个需要更少步数 (4 到 8 步，而不是原来的 25 到 50 步) 的版本以减少用 Stable Diffusion (或 SDXL) 生成图像所需的步数。蒸馏是一种训练过程，其主要思想是尝试用一个新模型来复制源模型的输出。蒸馏后的模型要么尺寸更小 (如 Di 阅读全文

posted @ 2023-11-20 21:42 HuggingFace 阅读(3064) 评论(2) 推荐(3) 编辑

使用 PPO 算法进行 RLHF 的 N 步实现细节

摘要：

当下，RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究，这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库，其仓库位置位于 openai/lm-human-preferences。尽管它具有 “tensorflow-1.x” 阅读全文

posted @ 2023-11-16 15:02 HuggingFace 阅读(881) 评论(0) 推荐(1) 编辑

个人编程助手: 训练你自己的编码助手

摘要：在编程和软件开发这个不断演变的领域中，对效率和生产力的追求催生了许多卓越的创新。其中一个显著的创新就是代码生成模型的出现，如 Codex、StarCoder 和 Code Llama。这些模型在生成类似人类编写的代码片段方面表现出惊人能力，显示出了作为编程助手的巨大潜力。然而，虽然这些预训练模型在阅读全文

posted @ 2023-11-15 00:21 HuggingFace 阅读(1779) 评论(0) 推荐(4) 编辑

Transformers 中原生支持的量化方案概述

摘要：本文旨在对 transformers 支持的各种量化方案及其优缺点作一个清晰的概述，以助于读者进行方案选择。目前，量化模型有两个主要的用途: 在较小的设备上进行大模型推理对量化模型进行适配器微调到目前为止，transformers 已经集成并原生支持了 bitsandbytes 和 aut 阅读全文

posted @ 2023-11-13 21:26 HuggingFace 阅读(1619) 评论(0) 推荐(2) 编辑

Hugging Face 在法国联合启动人工智能创业项目！

摘要：Hugging Face、Meta、Scaleway 与法国创业孵化基地 STATION F 合作的人工智能创业项目正式启动 📢🔥 申请截止日期为 12 月 1 日本项目旨在利用开源人工智能的力量来扶持初创公司并推动人工智能创业生态的创新🌪如果你是：👾 一家愿意开发开源模型的人工智能初创企业阅读全文

posted @ 2023-11-10 09:53 HuggingFace 阅读(86) 评论(0) 推荐(0) 编辑

开源模型 Zephyr-7B 发布——跨越三大洲的合作

摘要：最近我们刚刚发布了新的开源模型 Zephry-7B🪁，这个模型的诞生离不开全球三大洲开源社区的协作 ❤️。我们的 CSO Thomas 录了一个视频介绍了它的起源故事: ✨ 就在几个月前，巴黎的一个新团队发布了他们首个模型: Mistral 7B，这个模型体积小巧但性能强劲，在基准测试中的表现超阅读全文

posted @ 2023-11-09 01:10 HuggingFace 阅读(647) 评论(1) 推荐(1) 编辑

用 bitsandbytes、4 比特量化和 QLoRA 打造亲民的 LLM

摘要：众所周知，LLM 规模庞大，如果在也能消费类硬件中运行或训练它们将是其亲民化的巨大进步。我们之前撰写的 LLM.int8 博文展示了我们是如何将 LLM.int8 论文中的技术通过 bitsandbytes 库集成到 transformers 中的。在此基础上，我们不断努力以不断降低大模型的准入阅读全文

posted @ 2023-11-07 23:45 HuggingFace 阅读(2009) 评论(0) 推荐(1) 编辑

HF Hub 现已加入存储区域功能

摘要：我们在企业版 Hub 服务方案中推出了存储区域（Storage Regions）功能。通过此功能，用户能够自主决定其组织的模型和数据集的存储地点，这带来两大显著优势，接下来的内容会进行简要介绍：法规和数据合规，此外还能增强数字主权性能提升（下载和上传速度更快，减少延迟）目前，我们支持阅读全文

posted @ 2023-11-06 22:52 HuggingFace 阅读(51) 评论(0) 推荐(0) 编辑

The AI community building the future.

随笔分类 - Hugging Face 博客

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论