2024年7月12日

关于SVD-LLM的应用-基于SVD量化

摘要: 关于SVD-LLM的应用-基于SVD量化 一 背景 论文连接:https://arxiv.org/pdf/2403.07378 这是论文 github:https://github.com/AIoT-MLSys-Lab/SVD-LLM 二 什么是SVD SVD可能是 可以把矩阵向量 转化到另外一个 阅读全文

posted @ 2024-07-12 12:28 lexn 阅读(60) 评论(0) 推荐(0) 编辑

2024年6月5日

关于python中的抽象类

摘要: 关于python中的抽象类 本质是:不想让使用者实例化抽象类 对于 abstractstaticmethod 在py3.3中弃用了。 一 如何定义一个抽象类 1 常规做法 先import ABC 继承ABC 2 用abstractmethod或abstractclassmethod装饰一个方法。 二 阅读全文

posted @ 2024-06-05 15:02 lexn 阅读(7) 评论(0) 推荐(0) 编辑

2024年4月5日

transformer结构-position_encoding层

摘要: transformer结构-position_encoding层 1 完整代码 import math import torch import torch.nn as nn class PositionEncoding(nn.Module): def __init__(self, d_model, 阅读全文

posted @ 2024-04-05 13:28 lexn 阅读(80) 评论(0) 推荐(0) 编辑

2024年3月29日

LargeWorldModels-总结

摘要: LargeWorldModels-总结 链接:Large World Models lwm 原理论文 代码 hgf总链接 链接2:[2402.08268] World Model on Million-Length Video And Language With RingAttention (arx 阅读全文

posted @ 2024-03-29 10:21 lexn 阅读(137) 评论(0) 推荐(0) 编辑

2024年1月15日

第一周-transformer详解

摘要: 第一周-transformer详解 一、搭建教程的环境 49. 3.1使用Transformer构建语言模型-第1步_哔哩哔哩_bilibili 1 安装conda 详解见blogs 2 创建python指定环境 $conda create -n myenv python=3.6.6 $conda 阅读全文

posted @ 2024-01-15 09:41 lexn 阅读(40) 评论(0) 推荐(0) 编辑

2023年12月26日

查看onnx模型结构-使用Netron模块

摘要: 查看onnx模型结构-使用Netron模块 1 安装 $pip install netron 2 可选-查看安装的路径 $ pip show netron 3 查看onnx结构 import netron # �??�?ONNX模�??�??件�??路�? onnx_model_path = r'y 阅读全文

posted @ 2023-12-26 15:50 lexn 阅读(1061) 评论(0) 推荐(0) 编辑

2023年11月7日

调用gpu/cuda常见问题

摘要: 调用gpu/cuda常见问题 1 、cuda out of memory 1)先查询nvidia-smi 确保gpu未占用 2)调用.cuda()方法前,确保你的系统中有可用的GPU,并且已经安装了适当的GPU驱动和CUDA工具包。否则,将会引发错误。 3) 使用这种方法可以正常使用 util是 g 阅读全文

posted @ 2023-11-07 09:16 lexn 阅读(143) 评论(0) 推荐(0) 编辑

2023年10月19日

函数性能统计

摘要: 函数性能统计 https://superfastpython.com/benchmark-python-code/#Benchmark_with_cProfile 第五章 详细阅读,能够列出每个函数的时间,以及函数中调用的函数的性能 profile 模块使用参考 Python性能分析工具Profil 阅读全文

posted @ 2023-10-19 10:35 lexn 阅读(10) 评论(0) 推荐(0) 编辑

2023年10月17日

大模型微调方法总结

摘要: 大模型微调方法总结 参考链接:https://blog.csdn.net/v_JULY_v/article/details/132116949 前言:随着chatGPT的备受欢迎,大模型异常火爆,各大厂商相继推出自己的大模型。 二级公司和用户需要根据自身的垂直领域微调这些具有语义理解能力的大模型,以 阅读全文

posted @ 2023-10-17 09:30 lexn 阅读(2884) 评论(0) 推荐(0) 编辑

2023年8月30日

NLP原理系列1-说清楚transformer原理

摘要: NLP原理系列1-说清楚transformer原理 来用思维导图和截图描述。 思维导图的本质是 变化(解决问题)-> 更好的, 或者复杂问题拆分为小问题 以及拆分的思路。 参考链接:李宏毅 transformer原理。 经典全图 0 transformer的前世今生 1 seq2seq 序列化数据 阅读全文

posted @ 2023-08-30 09:39 lexn 阅读(370) 评论(0) 推荐(0) 编辑

导航