上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 30 下一页
摘要: 引言 通过本文,你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中,我们主要会用到 Hugging Face Transformers、Accelerate 和 TRL 库。我们还将展示如何在 SLURM 中使用 Accelerate。 完全分片数据并 阅读全文
posted @ 2023-12-12 00:39 HuggingFace 阅读(921) 评论(0) 推荐(1) 编辑
摘要: 本文,我们将了解如何基于 PyTorch 最新的 完全分片数据并行 (Fully Sharded Data Parallel,FSDP) 功能用 Accelerate 库来训练大模型。 动机 🤗 随着机器学习 (ML) 模型的规模、大小和参数量的不断增加,ML 从业者发现在自己的硬件上训练甚至加载 阅读全文
posted @ 2023-12-04 20:54 HuggingFace 阅读(1696) 评论(0) 推荐(1) 编辑
摘要: Google Colab,全称 Colaboratory,是 Google Research 团队开发的一款产品。在 Colab 中,任何人都可以通过浏览器编写和执行任意 Python 代码。它尤其适合机器学习、数据分析和教育目的。从技术上来说,Colab 是一种托管式 Jupyter 笔记本服务。 阅读全文
posted @ 2023-12-01 23:06 HuggingFace 阅读(569) 评论(0) 推荐(0) 编辑
摘要: Gradio 是一个经常用于创建交互式机器学习应用的 Python 库。在以前按照传统方法,如果想对外分享 Gradio 应用,就需要依赖服务器设备和相关资源,而这对于自己部署的开发人员来说并不友好。 欢迎 Gradio-lite ( @gradio/lite ): 一个通过 Pyodide 在浏览 阅读全文
posted @ 2023-12-01 11:53 HuggingFace 阅读(397) 评论(0) 推荐(1) 编辑
摘要: 视频地址:https://www.bilibili.com/video/BV1eg4y1Q7N5/ 是未来危机,还是眼下的问题?🌍 Sasha Luccioni 是 Hugging Face 团队的道德和可持续人工智能研究员,被邀请做了 TED 演讲 📢 演讲主题也是最近在 AI 伦理道德方面的 阅读全文
posted @ 2023-11-28 18:50 HuggingFace 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 引言 基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而,\(O(n^2)\) 的时间和内存复杂度 (其中 \(n\) 是序列长度) 使得在长序列 (\(n > 512\)) 上应用它们变得非常昂贵,因而大大限制了其应用。最近的几篇论文,如 Longformer 、Pe 阅读全文
posted @ 2023-11-24 01:41 HuggingFace 阅读(566) 评论(0) 推荐(0) 编辑
摘要: LCM 模型 通过将原始模型蒸馏为另一个需要更少步数 (4 到 8 步,而不是原来的 25 到 50 步) 的版本以减少用 Stable Diffusion (或 SDXL) 生成图像所需的步数。蒸馏是一种训练过程,其主要思想是尝试用一个新模型来复制源模型的输出。蒸馏后的模型要么尺寸更小 (如 Di 阅读全文
posted @ 2023-11-20 21:42 HuggingFace 阅读(2933) 评论(2) 推荐(3) 编辑
摘要: 使用 PPO 算法进行 RLHF 的 N 步实现细节 当下,RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究,这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库,其仓库位置位于 openai/lm-human-preferences。尽管它具有 “tensorflow-1.x” 阅读全文
posted @ 2023-11-16 15:02 HuggingFace 阅读(743) 评论(0) 推荐(1) 编辑
摘要: 在编程和软件开发这个不断演变的领域中,对效率和生产力的追求催生了许多卓越的创新。其中一个显著的创新就是代码生成模型的出现,如 Codex、StarCoder 和 Code Llama。这些模型在生成类似人类编写的代码片段方面表现出惊人能力,显示出了作为编程助手的巨大潜力。 然而,虽然这些预训练模型在 阅读全文
posted @ 2023-11-15 00:21 HuggingFace 阅读(1618) 评论(0) 推荐(4) 编辑
摘要: 本文旨在对 transformers 支持的各种量化方案及其优缺点作一个清晰的概述,以助于读者进行方案选择。 目前,量化模型有两个主要的用途: 在较小的设备上进行大模型推理 对量化模型进行适配器微调 到目前为止,transformers 已经集成并 原生 支持了 bitsandbytes 和 aut 阅读全文
posted @ 2023-11-13 21:26 HuggingFace 阅读(1412) 评论(0) 推荐(2) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 30 下一页