1 2 3 4 5 ··· 7 下一页
摘要: 本篇文章主要介绍 什么是Transformer, 它主要用于解决什么问题,以及依靠什么结构设计来解决这些问题 Transformer结构概览 encoder结构 decoder结构 什么是Transformer Transformer首次提出于 Attention is all you need 这 阅读全文
posted @ 2024-12-08 21:40 老张哈哈哈 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 长度外推为在不需要对模型进行额外训练的情况下,模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术,包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN,以及LongLoRA微调技术。关于RoPE,可参见我的上一篇博客LLM学习笔 阅读全文
posted @ 2024-09-19 18:50 老张哈哈哈 阅读(438) 评论(0) 推荐(0) 编辑
摘要: 在Transformer模型中,位置编码(Positional Encoding)的引入是为了补充自注意力机制(Self-Attention)在捕捉序列位置信息方面的不足。自注意力机制是Transformer的核心,但它对输入序列的位置信息并不敏感。具体来说,Transformer模型对输入序列中的 阅读全文
posted @ 2024-08-06 18:44 老张哈哈哈 阅读(1066) 评论(0) 推荐(0) 编辑
摘要: transformer中用到的注意力机制包括self-attention(intra-attention)和传统的attention(cross-attention),本篇文章将在第一节简述这两者的差别,第二节详述self-attention机制,第三节介绍其实现 self-attention和at 阅读全文
posted @ 2024-07-02 18:26 老张哈哈哈 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 问题 我在本地调用服务,返回的结果应该是土耳其语,但是本机上显示的结果和服务端的结果不一样。 本地结果 ne yapmal覺y覺m ne yapmal覺y覺m 服务端结果 ne yapmalıyım ne yapmalıyım 经查询是因为本地机器locale设置问题,本地locale 设置语言为中 阅读全文
posted @ 2023-10-17 14:39 老张哈哈哈 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 本篇文章主要介绍1. 如何使用python request向服务端发送文件 2. 服务端如何接收文件 3. 服务端如何发送文件 如何使用python request向服务端发送文件 request.post可以发送file类型 def foo(): local_url = "http://127.0 阅读全文
posted @ 2023-10-17 12:02 老张哈哈哈 阅读(481) 评论(0) 推荐(0) 编辑
摘要: pytorch 转onnx 首先加载pytorch模型 # load model import torch def load_model(ckpt) # build model model = build_model() # depending on your own model build fun 阅读全文
posted @ 2022-05-06 15:31 老张哈哈哈 阅读(2705) 评论(0) 推荐(1) 编辑
摘要: 在使用tensorflow运行程序的时候报了错误 2022-04-17 15:34:41.644608: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'l 阅读全文
posted @ 2022-04-17 16:23 老张哈哈哈 阅读(944) 评论(0) 推荐(0) 编辑
摘要: 首先安装homebrew /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install.sh)" python,pycharm 安装配置 python安装 brew insta 阅读全文
posted @ 2022-04-02 19:03 老张哈哈哈 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 主要介绍VGG, ResNet, ResNeXt, DenseNet, SENet这四种网络 VGG 该论文主要论证了网络深度对图片识别任务精度的影响。VGG网络的主要贡献在于提出用连续的3X3的conv代替5X5以及7X7等更加大的filters,进而提升网络的深度。因为进行两次3X3filter 阅读全文
posted @ 2022-03-29 16:15 老张哈哈哈 阅读(1511) 评论(0) 推荐(0) 编辑
1 2 3 4 5 ··· 7 下一页