LLM - 随笔分类 - 海_纳百川

‌MTEB-大规模文本嵌入评估基准测试平台介绍

摘要：‌MTEB是大规模文本嵌入评估基准测试平台‌，旨在提供一个全面且可靠的文本嵌入模型性能评估平台。MTEB是一个评估和比较不同文本嵌入模型性能的基准测试平台，它包含了一系列的评估指标和任务，用于衡量文本嵌入模型的性能。这些评估指标和任务不仅包括对模型性能的直接测量，还涵盖了模型在不同应用场景下的表现，阅读全文

posted @ 2024-09-13 10:20 海_纳百川阅读(513) 评论(0) 推荐(0)

最容易理解的Swin transformer模型(通俗易懂版)

摘要：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 1. 论文信息原文地址：https://arxiv.org/abs/2103.14030 官网地址：https://github.com/microsof 阅读全文

posted @ 2024-08-25 22:11 海_纳百川阅读(7500) 评论(1) 推荐(1)

大语言模型LLM网络结构介绍

摘要：大语言模型（Large Language Model，LLM）的网络结构通常基于深度神经网络，其中最常见的是基于变换器（Transformer）架构的模型。以下是一般情况下大语言模型（如GPT系列）的网络结构概述：多层变换器（Multi-layer Transformers）：大语言模型通常由多个阅读全文

posted @ 2023-08-31 09:05 海_纳百川阅读(1249) 评论(0) 推荐(0)

transformer解读-更新中

摘要：Transformer是一种基于注意力机制的深度学习架构，专门用于处理序列数据，尤其在自然语言处理领域取得了重大突破。它由Google于2017年首次提出，并在各种NLP任务中表现出色，如机器翻译、文本生成和情感分析。主要特点包括：自注意力机制：Transformer的核心是自注意力（Self- 阅读全文

posted @ 2023-08-31 08:58 海_纳百川阅读(86) 评论(0) 推荐(0)

2023年全球十大大模型简介

摘要：<转>https://baijiahao.baidu.com/s?id=1770560671091860606&wfr=spider&for=pc 据统计，到目前为止，全球已经发布了数百个大模型。但是，哪些是最有能力的？哪些是最受业界关注的？请关注笔者列出的《2023年全球最佳大模型》。 1. GP 阅读全文

posted @ 2023-08-30 08:42 海_纳百川阅读(295) 评论(0) 推荐(0)

大模型训练框架deepspeed和accelerate

摘要：引子 DeepSpeed是由Microsoft提供的分布式训练工具，旨在支持更大规模的模型和提供更多的优化策略和工具。与其他框架相比，DeepSpeed支持更大规模的模型和提供更多的优化策略和工具。其中，主要优势在于支持更大规模的模型、提供了更多的优化策略和工具（例如 ZeRO 和 Offload 阅读全文

posted @ 2023-08-30 08:34 海_纳百川阅读(5027) 评论(0) 推荐(0)

如何评估大模型,指标有哪些?

摘要：这个内容是值得记录的,先立个帖子,后续一定补充阅读全文

posted @ 2023-05-12 09:18 海_纳百川阅读(145) 评论(0) 推荐(0)

bitsandbytes--Facebook 推出 8 比特优化器大大减少显存

摘要：“小夕，小夕！又出来了个 SOTA 模型！赶紧 follow ！” 小夕看了看新模型的参数量，然后看了看实验室服务器的几张小破卡。小夕，陷入了沉默。自从人们发现越大的模型性能越好后，神经网络模型的参数量就在越来越大的道路上一去不复返了。从XX-large到GPT3，再到5300亿参数的Mega 阅读全文

posted @ 2023-05-10 17:13 海_纳百川阅读(1338) 评论(0) 推荐(0)

Hugging Face之PEFT

摘要：Hugging Face's PEFT是一种针对Transformer模型的加速器，其全称为"Positional Encodings for Fine-tuning"。PEFT的主要目的是通过改变位置编码的方式来提高Transformer模型的训练和推理速度。PEFT是在Hugging Face团阅读全文

posted @ 2023-05-10 16:04 海_纳百川阅读(304) 评论(0) 推荐(0)

text-davinci-003和ChatGPT是什么关系呢?

摘要：先看下GPT的发展时间线 InstructGPT（2022 年 1 月）是一系列 GPT-3 模型（包括 text-davinci-001、text-davinci-002 和 text-davinci-003）统称，于GPT-3相比，它的最大不同是针对人类指令（reinforcement lear 阅读全文

posted @ 2023-05-10 15:39 海_纳百川阅读(771) 评论(0) 推荐(0)

大语言模型中的token解释

摘要：在大型语言模型中，"token"通常指的是一个离散的文本单元，它可以是单词、标点符号、数字或其他语言元素，这些元素被用作训练和生成文本的基本单位。在NLP中，通常使用tokenization技术将文本分割成token序列。具体来说，tokenization是将一个连续的文本字符串分割成一个个离散的单阅读全文

posted @ 2023-04-25 09:27 海_纳百川阅读(3723) 评论(0) 推荐(0)

不积跬步无以至千里

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己

随笔分类 - LLM

公告

不积跬步无以至千里

研究领域：深度学习，图像处理 联系方式：vladimirputin@foxmail.com 不必高看自己，也不必贬低自己

随笔分类 - LLM

公告

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己