Hugging Face 博客

扩展说明: 指令微调 Llama 2

摘要：这篇博客是一篇来自 Meta AI，关于指令微调 Llama 2 的扩展说明。旨在聚焦构建指令数据集，有了它，我们则可以使用自己的指令来微调 Llama 2 基础模型。目标是构建一个能够基于输入内容来生成指令的模型。这么做背后的逻辑是，模型如此就可以由其他人生成自己的指令数据集。这在当想开发私人个阅读全文

posted @ 2024-02-08 17:01 HuggingFace 阅读(1720) 评论(0) 推荐(0) 编辑

句子嵌入: 交叉编码和重排序

摘要：这个系列目的是揭开嵌入的神秘面纱，并展示如何在你的项目中使用它们。第一篇博客介绍了如何使用和扩展开源嵌入模型，选择现有的模型，当前的评价方法，以及生态系统的发展状态。第二篇博客将会更一步深入嵌入并解释双向编码和交叉编码的区别。进一步我们将了解检索和重排序的理论。我们会构建一个工具，它可以来回答阅读全文

posted @ 2024-02-06 20:44 HuggingFace 阅读(1248) 评论(0) 推荐(2) 编辑

随机 Transformer

摘要：在这篇博客中，我们将通过一个端到端的示例来讲解 Transformer 模型中的数学原理。我们的目标是对模型的工作原理有一个良好的理解。为了使内容易于理解，我们会进行大量简化。我们将减少模型的维度，以便我们可以手动推理模型的计算过程。例如，我们将使用 4 维的嵌入向量代替原始的 512 维嵌入向量。阅读全文

posted @ 2024-01-29 21:44 HuggingFace 阅读(350) 评论(0) 推荐(0) 编辑

最新 Hugging Face 强化学习课程（中文版）来啦！

摘要：人工智能中最引人入胜的话题莫过于深度强化学习 (Deep Reinforcement Learning) 了，我们在 2022 年 12 月 5 日开启了《深度强化学习课程 v2.0》的课程学习，有来自全球众多学员们的参加。课程已经完成更新，并且发布在 Hugging Face 官网 https:/ 阅读全文

posted @ 2024-01-28 15:17 HuggingFace 阅读(706) 评论(0) 推荐(1) 编辑

SetFitABSA: 基于 SetFit 的少样本、方面级情感分析

摘要：

SetFitABSA 是一种可以有效从文本中检测方面级情感的技术。方面级情感分析 (Aspect-Based Sentiment Analysis，ABSA) 是一种检测文本中特定方面的情感的任务。例如，在“这款手机的屏幕很棒，但电池太小”一句中，分别有“屏幕”和“电池”两个方面，它们的情感极性分阅读全文

posted @ 2024-01-19 09:26 HuggingFace 阅读(292) 评论(0) 推荐(0) 编辑

给科研人的 ML 开源发布工具包

摘要：什么是开源发布工具包？恭喜你的论文成功发表，这是一个巨大的成就！你的研究成果将为学界做出贡献。其实除了发表论文之外，你还可以通过发布研究的其他部分，如代码、数据集、模型等，来增加研究的可见度和采用率。这将使更多人能够使用你的研究，并推动研究成果的应用。我们整理了这份文件，让你可以更好的了解和实阅读全文

posted @ 2024-01-17 23:20 HuggingFace 阅读(604) 评论(0) 推荐(2) 编辑

开放 LLM 排行榜: 深入研究 DROP

摘要：最近，开放 LLM 排行榜迎来了 3 个新成员: Winogrande、GSM8k 以及 DROP，它们都使用了 EleutherAI Harness 的原始实现。一眼望去，我们就会发现 DROP 的分数有点古怪: 绝大多数模型的 F1 分数都低于 10 分 (满分 100 分)！我们对此进行了深阅读全文

posted @ 2024-01-15 23:09 HuggingFace 阅读(501) 评论(0) 推荐(0) 编辑

Hugging Face CEO: 2024 将是AI丰收年

摘要：来自CEO的新年祝福 ❤️附加了他对于2024年人工智能界的四大预测你觉得2024年人工智能和机器学习界会是什么样的呢？欢迎留言阅读全文

posted @ 2024-01-12 11:20 HuggingFace 阅读(69) 评论(0) 推荐(0) 编辑

使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速

摘要：Open AI 推出的 Whisper 是一个通用语音转录模型，在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜，被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据集的 58 种语言中也展现出了强大的多语言性能，在阅读全文

posted @ 2024-01-10 22:48 HuggingFace 阅读(849) 评论(0) 推荐(0) 编辑

非工程师指南: 训练 LLaMA 2 聊天机器人

摘要：引言本教程将向你展示在不编写一行代码的情况下，如何构建自己的开源 ChatGPT，这样人人都能构建自己的聊天模型。我们将以 LLaMA 2 基础模型为例，在开源指令数据集上针对聊天场景对其进行微调，并将微调后的模型部署到一个可分享的聊天应用中。全程只需点击鼠标，即可轻松通往荣耀之路！😀 为什么这阅读全文

posted @ 2024-01-06 00:55 HuggingFace 阅读(436) 评论(0) 推荐(0) 编辑

Huggy Lingo: 利用机器学习改进 Hugging Face Hub 上的语言元数据

摘要：太长不看版: Hub 上有不少数据集没有语言元数据，我们用机器学习来检测其语言，并使用 librarian-bots 自动向这些数据集提 PR 以添加其语言元数据。 Hugging Face Hub 已成为社区共享机器学习模型、数据集以及应用的存储库。随着 Hub 上的数据集越来越多，元数据，作为一阅读全文

posted @ 2024-01-04 21:26 HuggingFace 阅读(129) 评论(0) 推荐(0) 编辑

欢迎 Mixtral - 当前 Hugging Face 上最先进的 MoE 模型

摘要：最近，Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b，该模型把开放模型的性能带到了一个新高度，并在许多基准测试上表现优于 GPT-3.5。我们很高兴能够在 Hugging Face 生态系统中全面集成 Mixtral 以对其提供全方位的支持 🔥！ Hugging Fac 阅读全文

posted @ 2024-01-04 12:27 HuggingFace 阅读(1301) 评论(0) 推荐(0) 编辑

Hugging Face 年度回顾：2023，开源大模型之年

摘要：在 2023 年，大型语言模型（Large Language Models，简称 LLMs）受到了公众的广泛关注，许多人对这些模型的本质及其功能有了基本的了解。是否开源的议题同样引起了广泛的讨论。在 Hugging Face，我们对开源模型抱有极大热情。开源模型的优势在于，它们不仅促进了研究的可复制阅读全文

posted @ 2023-12-29 15:12 HuggingFace 阅读(863) 评论(0) 推荐(3) 编辑

Reformer 模型 - 突破语言建模的极限

摘要：Reformer 如何在不到 8GB 的内存上训练 50 万个词元 Kitaev、Kaiser 等人于 20202 年引入的 Reformer 模型是迄今为止长序列建模领域内存效率最高的 transformer 模型之一。最近，人们对长序列建模的兴趣激增，仅今年一年，就涌现出了大量的工作，如 B 阅读全文

posted @ 2023-12-27 22:53 HuggingFace 阅读(288) 评论(0) 推荐(0) 编辑

混合专家模型 (MoE) 详解

摘要：随着 Mixtral 8x7B (announcement, model card) 的推出，一种称为混合专家模型 (Mixed Expert Models，简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中，我们将深入探讨 MoEs 的核心组件、训练方阅读全文

posted @ 2023-12-26 22:21 HuggingFace 阅读(2886) 评论(0) 推荐(0) 编辑

3D 高斯点染简介

摘要：3D 高斯点染技术由 3D Gaussian Splatting for Real-Time Radiance Field Rendering 一文首次提出。作为一种栅格化技术，3D 高斯点染可用于实时且逼真地渲染从一小组图像中学到的场景。本文将详细介绍其工作原理并讨论其对图形学的未来会带来什么影响阅读全文

posted @ 2023-12-26 17:29 HuggingFace 阅读(615) 评论(0) 推荐(0) 编辑

Google Colab 环境现已无需手动登录 HF 账号

摘要：前段时间我们介绍了一些 HF 核心库在 Google Colab 环境中的内置，包括可以使用 hf:// 资源标识符来调用 Hub 上的数据集等等，详情可以回顾文章：Google Colab 现已支持直接使用 🤗 transformers 库。今天，随着 huggingface_hub 库的更新阅读全文

posted @ 2023-12-22 19:45 HuggingFace 阅读(61) 评论(0) 推荐(0) 编辑

在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现

摘要：引言自然语言处理 (NLP) 领域的进展日新月异，你方唱罢我登场。因此，在实际场景中，针对特定的任务，我们经常需要对不同的语言模型进行比较，以寻找最适合的模型。本文主要比较 3 个模型: RoBERTa、Mistral-7B 及 Llama-2-7B。我们用它们来解决一个常见问题 —— 对灾难相关阅读全文

posted @ 2023-12-21 16:00 HuggingFace 阅读(966) 评论(0) 推荐(1) 编辑

3D 高斯喷溅 🤗 为什么图形永远不会相同

摘要：高斯喷溅 (Gaussian Splatting) 技术是一种翻天覆地的渲染手段，能够以 144 帧每秒的速度渲染出高质量的场景，这和传统的图形处理流程截然不同 🎨 这种将高斯数据转换成图像的过程，与训练神经网络相似，但由于不包含任何层级，其速度非常快 🌌 这种图形处理流程的革新，就像过去在 3 阅读全文

posted @ 2023-12-16 15:50 HuggingFace 阅读(328) 评论(0) 推荐(0) 编辑

使用 PyTorch FSDP 微调 Llama 2 70B

摘要：引言通过本文，你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中，我们主要会用到 Hugging Face Transformers、Accelerate 和 TRL 库。我们还将展示如何在 SLURM 中使用 Accelerate。完全分片数据并阅读全文

posted @ 2023-12-12 00:39 HuggingFace 阅读(972) 评论(0) 推荐(1) 编辑

The AI community building the future.

随笔分类 - Hugging Face 博客

公告