随笔分类 -  LLM

大模型
摘要:‌MTEB是大规模文本嵌入评估基准测试平台‌,旨在提供一个全面且可靠的文本嵌入模型性能评估平台。MTEB是一个评估和比较不同文本嵌入模型性能的基准测试平台,它包含了一系列的评估指标和任务,用于衡量文本嵌入模型的性能。这些评估指标和任务不仅包括对模型性能的直接测量,还涵盖了模型在不同应用场景下的表现, 阅读全文
posted @ 2024-09-13 10:20 海_纳百川 阅读(200) 评论(0) 推荐(0) 编辑
摘要:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 1. 论文信息 原文地址:https://arxiv.org/abs/2103.14030 官网地址:https://github.com/microsof 阅读全文
posted @ 2024-08-25 22:11 海_纳百川 阅读(1252) 评论(0) 推荐(0) 编辑
摘要:大语言模型(Large Language Model,LLM)的网络结构通常基于深度神经网络,其中最常见的是基于变换器(Transformer)架构的模型。以下是一般情况下大语言模型(如GPT系列)的网络结构概述: 多层变换器(Multi-layer Transformers):大语言模型通常由多个 阅读全文
posted @ 2023-08-31 09:05 海_纳百川 阅读(931) 评论(0) 推荐(0) 编辑
摘要:Transformer是一种基于注意力机制的深度学习架构,专门用于处理序列数据,尤其在自然语言处理领域取得了重大突破。它由Google于2017年首次提出,并在各种NLP任务中表现出色,如机器翻译、文本生成和情感分析。 主要特点包括: 自注意力机制:Transformer的核心是自注意力(Self- 阅读全文
posted @ 2023-08-31 08:58 海_纳百川 阅读(51) 评论(0) 推荐(0) 编辑
摘要:<转>https://baijiahao.baidu.com/s?id=1770560671091860606&wfr=spider&for=pc 据统计,到目前为止,全球已经发布了数百个大模型。但是,哪些是最有能力的?哪些是最受业界关注的?请关注笔者列出的《2023年全球最佳大模型》。 1. GP 阅读全文
posted @ 2023-08-30 08:42 海_纳百川 阅读(158) 评论(0) 推荐(0) 编辑
摘要:引子 DeepSpeed是由Microsoft提供的分布式训练工具,旨在支持更大规模的模型和提供更多的优化策略和工具。与其他框架相比,DeepSpeed支持更大规模的模型和提供更多的优化策略和工具。其中,主要优势在于支持更大规模的模型、提供了更多的优化策略和工具(例如 ZeRO 和 Offload 阅读全文
posted @ 2023-08-30 08:34 海_纳百川 阅读(4069) 评论(0) 推荐(0) 编辑
摘要:这个内容是值得记录的,先立个帖子,后续一定补充 阅读全文
posted @ 2023-05-12 09:18 海_纳百川 阅读(111) 评论(0) 推荐(0) 编辑
摘要:“小夕,小夕!又出来了个 SOTA 模型!赶紧 follow !” 小夕看了看新模型的参数量, 然后看了看实验室服务器的几张小破卡。 小夕,陷入了沉默。 自从人们发现越大的模型性能越好后,神经网络模型的参数量就在越来越大的道路上一去不复返了。从XX-large到GPT3,再到5300亿参数的Mega 阅读全文
posted @ 2023-05-10 17:13 海_纳百川 阅读(1096) 评论(0) 推荐(0) 编辑
摘要:Hugging Face's PEFT是一种针对Transformer模型的加速器,其全称为"Positional Encodings for Fine-tuning"。PEFT的主要目的是通过改变位置编码的方式来提高Transformer模型的训练和推理速度。PEFT是在Hugging Face团 阅读全文
posted @ 2023-05-10 16:04 海_纳百川 阅读(220) 评论(0) 推荐(0) 编辑
摘要:先看下GPT的发展时间线 InstructGPT(2022 年 1 月)是一系列 GPT-3 模型(包括 text-davinci-001、text-davinci-002 和 text-davinci-003)统称,于GPT-3相比,它的最大不同是针对人类指令(reinforcement lear 阅读全文
posted @ 2023-05-10 15:39 海_纳百川 阅读(586) 评论(0) 推荐(0) 编辑
摘要:在大型语言模型中,"token"通常指的是一个离散的文本单元,它可以是单词、标点符号、数字或其他语言元素,这些元素被用作训练和生成文本的基本单位。在NLP中,通常使用tokenization技术将文本分割成token序列。具体来说,tokenization是将一个连续的文本字符串分割成一个个离散的单 阅读全文
posted @ 2023-04-25 09:27 海_纳百川 阅读(3212) 评论(0) 推荐(0) 编辑

本站总访问量8937474
 
点击右上角即可分享
微信分享提示