老张哈哈哈 - 博客园

2024年12月8日

摘要：本篇文章主要介绍什么是Transformer，它主要用于解决什么问题，以及依靠什么结构设计来解决这些问题 Transformer结构概览 encoder结构 decoder结构什么是Transformer Transformer首次提出于 Attention is all you need 这阅读全文

posted @ 2024-12-08 21:40 老张哈哈哈阅读(26) 评论(0) 推荐(0) 编辑

2024年9月19日

LLM学习笔记-长度外推技术

摘要：长度外推为在不需要对模型进行额外训练的情况下，模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术，包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN，以及LongLoRA微调技术。关于RoPE，可参见我的上一篇博客LLM学习笔阅读全文

posted @ 2024-09-19 18:50 老张哈哈哈阅读(438) 评论(0) 推荐(0) 编辑

2024年8月6日

LLM学习笔记-位置编码篇

摘要：在Transformer模型中，位置编码（Positional Encoding）的引入是为了补充自注意力机制（Self-Attention）在捕捉序列位置信息方面的不足。自注意力机制是Transformer的核心，但它对输入序列的位置信息并不敏感。具体来说，Transformer模型对输入序列中的阅读全文

posted @ 2024-08-06 18:44 老张哈哈哈阅读(1066) 评论(0) 推荐(0) 编辑

2024年7月2日

LLM学习笔记-attention机制详解

摘要： transformer中用到的注意力机制包括self-attention（intra-attention）和传统的attention（cross-attention），本篇文章将在第一节简述这两者的差别，第二节详述self-attention机制，第三节介绍其实现 self-attention和at 阅读全文

posted @ 2024-07-02 18:26 老张哈哈哈阅读(495) 评论(0) 推荐(0) 编辑

2023年10月17日

linux locale 介绍

摘要：问题我在本地调用服务，返回的结果应该是土耳其语，但是本机上显示的结果和服务端的结果不一样。本地结果 ne yapmal覺y覺m ne yapmal覺y覺m 服务端结果 ne yapmalıyım ne yapmalıyım 经查询是因为本地机器locale设置问题，本地locale 设置语言为中阅读全文

posted @ 2023-10-17 14:39 老张哈哈哈阅读(177) 评论(0) 推荐(0) 编辑

python request向服务端发送文件

摘要：本篇文章主要介绍1. 如何使用python request向服务端发送文件 2. 服务端如何接收文件 3. 服务端如何发送文件如何使用python request向服务端发送文件 request.post可以发送file类型 def foo(): local_url = "http://127.0 阅读全文

posted @ 2023-10-17 12:02 老张哈哈哈阅读(481) 评论(0) 推荐(0) 编辑

2022年5月6日

pytorch模型转trt部署

摘要： pytorch 转onnx 首先加载pytorch模型 # load model import torch def load_model(ckpt) # build model model = build_model() # depending on your own model build fun 阅读全文

posted @ 2022-05-06 15:31 老张哈哈哈阅读(2705) 评论(0) 推荐(1) 编辑

2022年4月17日

错误：Could not load dynamic library 'libcudart.so.10.0';

摘要：在使用tensorflow运行程序的时候报了错误 2022-04-17 15:34:41.644608: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'l 阅读全文

posted @ 2022-04-17 16:23 老张哈哈哈阅读(944) 评论(0) 推荐(0) 编辑

2022年4月2日

mac 配置pycharm(2021.3版本) 和 clion(2019.3版本)

摘要：首先安装homebrew /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install.sh)" python，pycharm 安装配置 python安装 brew insta 阅读全文

posted @ 2022-04-02 19:03 老张哈哈哈阅读(258) 评论(0) 推荐(0) 编辑

2022年3月29日

深度学习-神经网络backbone

摘要：主要介绍VGG， ResNet， ResNeXt, DenseNet, SENet这四种网络 VGG 该论文主要论证了网络深度对图片识别任务精度的影响。VGG网络的主要贡献在于提出用连续的3X3的conv代替5X5以及7X7等更加大的filters，进而提升网络的深度。因为进行两次3X3filter 阅读全文

posted @ 2022-03-29 16:15 老张哈哈哈阅读(1511) 评论(0) 推荐(0) 编辑

公告