刷新
聊聊ChatGLM-6B的源码分析

博主头像 基于ChatGLM-6B第一版,要注意还有ChatGLM2-6B以及ChatGLM3-6B 转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/ PrefixEncoder 作用:在微调时(以P-Tuning V2为例),方法训练时冻结模型的全部参数,只激活 ...

预热篇2:从RNN到Transformmer

博主头像 下面是整理的一个思维导图 2010年Mikolov提出了RNN网络,RNN网络存在长距离依赖(梯度消失),计算效率(RNN 难以并行)两个问题 2017年Transformmer网络结构问世,Transformer 网络架构架构由 Ashish Vaswani 等人在 Attention Is Al ...

干掉“卧槽”!首个支持中文及跨语言查询的开源在线反向词典!

博主头像 大家好,我是 Java陈序员。 我们在生活中,会遇到一些有趣的人和事,或者是一些令人惊叹的风景。想表达抒发自己心情的时候,到嘴边往往却只能说一句“卧槽”! 别问我为啥知道,因为“俺也一样”! 今天,给大家介绍一个有趣的开源项目,让你干掉“卧槽”! 项目介绍 WantWords —— 由清华大学人工智 ...

聊聊ChatGLM-6B部署与微调的深入理解

博主头像 ChatGLM的部署,主要是两个步骤: 在Github上下载chatglm的库文件 在Hugging Face上下载模型参数与配置文件 ChatGLM包 从Github上看ChatGLM项目文件的结构来看,仅仅是包含三种部署方式的py代码与微调的py代码 而相关的实现细节,比如神经网络、激活函数、损 ...

ChatGPT高质量prompt技巧指南-《向 ChatGPT 提问获取高质量答案的艺 术:Prompt 工程技术完全指南》图书分享

博主头像 一、图书简介:本书是一本全面的指南,介绍了各种 Prompt 技术的理解和利用,用于从 ChatGPT中生成高质量的答案。 我们将探讨如何使用不同的 Prompt 工程技术来实现不同的目标。ChatGPT 是一 种先进的语言模型,能够生成类似人类的文本。然而,了解正确的提问方式以获 取我们所需的高质 ...

向量数据库~milvus

博主头像 本文主要基于milvus官方的材料外加自己的一些理解整理而来,欢迎交流 设计理念 云原生:存&算分离; 读写分离; 增量存量分离; 微服务架构,极致弹性; 日志即数据:通过message queue解耦生产者、消费着,降低系统复杂度; 提升index、data、query模块弹性; 流批一体:表和日 ...

Hugging Face 年度回顾:2023,开源大模型之年

博主头像 在 2023 年,大型语言模型(Large Language Models,简称 LLMs)受到了公众的广泛关注,许多人对这些模型的本质及其功能有了基本的了解。是否开源的议题同样引起了广泛的讨论。在 Hugging Face,我们对开源模型抱有极大热情。开源模型的优势在于,它们不仅促进了研究的可复制 ...

使用vLLM和ChatGLM3-6b批量推理

博主头像 当数据量大的时候,比如百万级别,使用 ChatGLM3-6b 推理的速度是很慢的。发现使用 vLLM 和 ChatGLM3-6b 批量推理极大的提高了推理效率。本文主要通过一个简单的例子进行实践。 1.安装 vLLM 和PyTorch [2] 除了 Python(本文使用 3.11)、CUDA(本文 ...

聊聊ChatGLM2-6B模型的微调

博主头像 概述 GLM、ChatGLM的相关基础知识说明: GLM模型底层还是基于Transformer,因此其设计、优化都是围绕Transformer的各个组件的。从注意力层的掩码、位置编码等方面优化与设计。 ChatGLM3/ChatGLM2的源码中,比如finetune、trainer等代码,其实是co ...

多模态AI:技术深掘与应用实景解析

博主头像 在当今人工智能技术的快速发展中,多模态AI凭借其独特的数据处理能力,成为了科技创新的前沿。这项技术结合了视觉、听觉、文本等多种感知模式,开辟了人工智能处理和理解复杂信息的新纪元。本文旨在深入探讨多模态AI的核心技术和其在现实世界中的应用场景,揭示这项技术如何推动科技前沿的发展。 图片来源:浙商证券研 ...

语言模型:GPT与HuggingFace的应用

博主头像 本文分享自华为云社区《大语言模型底层原理你都知道吗?大语言模型底层架构之二GPT实现》,作者:码上开花_Lancer 。 受到计算机视觉领域采用ImageNet对模型进行一次预训练,使得模型可以通过海量图像充分学习如何提取特征,然后再根据任务目标进行模型微调的范式影响,自然语言处理领域基于预训练语言 ...

<1···1920