PyTorch 训练自定义功能齐全的神经网络模型的详细教程

合集 - 人工智能(65)

1.Python之禅，开宗明义：import this2024-05-03 2.Python深入理解*和**含义和应用2024-05-03 3.[每日AI·0430]首个自主更新的多模态大模型，马斯克访华，文本一键转3D数字人骨骼动画，创新的虚拟试衣模型2024-05-03 4.国内免费的AI工具出色地帮我辅导女儿的小学英语作业2024-05-04 5.[每日AI·0506]巴菲特谈 AI，李飞飞创业，苹果或将推出 AI 功能，ChatGPT 版搜索引擎2024-05-06 6.AI已来，我与AI一起用Python编写了一个消消乐小游戏2024-05-10 7.玩转AI，笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端2024-05-12 8.一文彻底整明白，基于Ollama工具的LLM大语言模型Web可视化对话机器人部署指南2024-05-18 9.基于Llama 3搭建中文版（Llama3-Chinese-Chat）大模型对话聊天机器人2024-05-21 10.借助AI大模型，三分钟原创一部儿童故事短视频（附完整操作步骤）2024-05-31 11.[AI资讯·0531] 达摩院医疗AI新里程碑，OpenAI价值数十亿美元，微软投资130亿美元，百度文库成为一站式AI内容获取与创作平台，三大运营商完成AI产品市场，AI获得成功PMF需多次尝试……2024-05-31 12.本地部署GLM-4-9B清华智谱开源大模型方法和对话效果体验2024-06-08 13.ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面（建议收藏）2024-06-09 14.[AI资讯·0609] SamAltman建立了庞大投资帝国，通义千问Qwen2发布即爆火，OpenAI泄密者公布165页文件，奥特曼百万年薪挖角谷歌TPU人才……2024-06-09 15.Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人2024-06-12 16.[AI资讯·0618] 快手AI模型可灵在质量优于Sora，OpenAI和谷歌发布新技术推动AI视频推理发展，Gemini1.5Pro在该榜单中表现突出2024-06-18 17.Stable Diffusion 3 大模型文生图“开源英雄”笔记本部署和使用教程，轻松实现AI绘图自由2024-06-18 18.[AI资讯·0622] Claude3.5超越GPT-4o，360推出AI搜索，OpenAI收购Rockset，华为发布大模型2024-06-22 19.Phi-3 模型手机部署教程（微软发布的可与GPT-3.5媲美的小模型）2024-06-23 20.大模型应用研发基础环境配置（Miniconda、Python、Jupyter Lab、Ollama等）2024-06-25 21.使用Llama3/Qwen2等开源大模型，部署团队私有化Code Copilot和使用教程2024-06-30 22.Google 发布了最新的开源大模型 Gemma 2，本地快速部署和体验2024-07-02 23.阿里Qwen2-72B大模型已是开源榜的王者，为什么还要推出其他参数模型，被其他模型打榜？2024-07-04 24.基于Qwen2/Lllama3等大模型，部署团队私有化RAG知识库系统的详细教程（Docker+AnythingLLM）2024-07-06 25.Ollama完整教程：本地LLM管理、WebUI对话、Python/Java客户端API应用2024-07-10 26.LivePortrait 数字人：开源的图生视频模型，本地部署和专业视频制作详细教程2024-07-14 27.基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）2024-07-20 28.太卷了，阿里云免费1个月大模型算力额度，玩转Llama3.1/Qwen2等训练推理2024-07-27

29.PyTorch 训练自定义功能齐全的神经网络模型的详细教程2024-08-02

30.vLLM CPU和GPU模式署和推理 Qwen2 等大语言模型详细教程2024-08-11 31.MiniCPM-V 2.6 面壁“小钢炮”，多图、视频理解多模态模型，部署和推理实战教程2024-08-14 32.InternLM 2.5 书生·浦语开源大模型本地部署体验2024-08-24 33.GLM-4-Flash 大模型API免费了，手把手构建“儿童绘本”应用实战（附源码）2024-08-27 34.ChatTTS 长音频合成和本地部署2种方式，让你的“儿童绘本”发声的实战教程（文末有福利）2024-08-31 35.Agent(智能体)和 MetaGPT，一句话实现整个需求应用代码2024-09-07 36.基于 CrewAI 多智能体框架，手把手构建一个自动化写作应用实战2024-09-15 37.基于 Qwen2.5-Coder 模型和 CrewAI 多智能体框架，实现智能编程系统的实战教程2024-09-21 38.使用世界领先的 Qwen2.5-Math 开源模型当 AI 数学老师，让奥数解题辅导不在鸡飞狗跳（文末有福利）2024-09-28 39.transformers 推理 Qwen2.5 等大模型技术细节详解(一)transformers 初始化和对象加载（文末免费送书）2024-10-18 40.transformers 推理 Qwen2.5 等大模型技术细节详解(二)AutoModel 初始化和模型加载（免费送新书）2024-10-27 41.深入解析 Transformers 框架（三）：Qwen2.5 大模型的 AutoTokenizer 技术细节2024-11-01 42.告别 PPT 配图难题！Napkin.ai 轻松打造生动演示文档（文末免费送书）2024-11-04 43.深入解析 Transformers 框架（四）：Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解2024-11-09 44.Meissonic 文生图模型：小参数，超轻量，本地部署推理教程2024-11-16 45.Transformers 框架任务概览：从零开始掌握 Pipeline（管道）与 Task（任务）2024-11-21 46.Transformers 框架 Pipeline 任务详解：文本转音频（text-to-audio 或 text-to-speech）2024-12-01 47.Transformers 框架 Pipeline 任务详解：文本分类（text-classification 或 sentiment-analysis）2024-12-05 48.Bolt.new 用一句话快速构建全栈应用：本地部署与应用实战（Ollama/Qwen2.5 等）2024-12-07 49.Transformers 框架 Pipeline 任务详解（三）：词元分类（token-classification）和命名实体识别2024-12-12 50.深入解析 Transformers 框架（五）：嵌入（Embedding）机制和 Word2Vec 词嵌入模型实战2024-12-13 51.Transformers 框架 Pipeline 任务详解（四）：问答（question-answering）2024-12-18 52.Transformers 框架 Pipeline 任务详解（五）：表格问答（table-question-answering）2024-12-22 53.Transformers 框架 Pipeline 任务详解（六）：填充蒙版（fill-mask）2024-12-25 54.深度解析 Transformer 模型中的位置嵌入（Positional Embedding）2024-12-29 55.使用Cursor + Qwen2.5 大模型零经验研发微信小程序：自由构建个性化节拍器应用实战01-03 56.Cline 免费插件 + Qwen2.5 大模型，零经验也能开发“对联王”微信小程序01-12 57.感谢有你，共赴未来：2024年微信公众号创作总结 · 老牛同学01-23 58.新春“码”启 | 0 基础开发微信小游戏，Cocos 游戏引擎 + AI 辅助编程（第1天）01-24 59.新春“码”启 | 0 基础开发微信小游戏，Cocos 游戏引擎 + AI 辅助编程（第2天）01-26 60.新春“码”启 | Cocos 3D 开发微信小游戏（第3天）：场景搭建与游戏链路基础开发01-28 61.新春“码”启 | Cocos 3D 开发微信小游戏（第4天）：游戏资源设计和框架核心源代码02-01 62.新春“码”启 | Cocos 3D 微信小游戏（第5天）：分包构建和上传发布（完美收官）02-06 63.DeepSeek vs. Qwen 大模型编程能力比拼，谁更适合作为你的 AI 辅助编程助手？02-09 64.欧拉角和四元数，3D 游戏开发中“旋转”难题的通俗讲解和应用实战02-15 65.MNN 手机本地部署 DeepSeek R1 和多模态大模型，告别服务器繁忙！02-21

在前面的文章中，老牛同学介绍了不少大语言模型的部署、推理和微调，也通过大模型演示了我们的日常的工作需求场景。我们通过大语言模型，实实在在的感受到了它强大的功能，同时也从中受益颇多。

今天，老牛同学想和大家一起来训练一个自定义的、但是功能齐全的简单的神经网络模型。这个模型虽然在参数规模、训练数据集、应用场景等方面均无法与大语言模型相媲美，但是我们旨在通过这个模型的训练过程，一窥神经网络模型的训练全貌。正所谓“麻雀虽小，五脏俱全”，同时老牛同学也希望能通过本文，与大家一起学习加深对训练神经网络的理解，逐步做到“肚里有货，从容不迫”！

由于模型训练过程的代码可能会反复调试和修改，老牛同学强烈建议大家使用Jupyter Lab来编写和调试代码。如果还没有配置好Jupyter Lab环境，请先移步老牛同学之前的文章，首先完成大模型研发的基础环境配置：大模型应用研发基础环境配置（Miniconda、Python、Jupyter Lab、Ollama 等）

定义神经网络模型

本文重在演示训练过程，因此为了方便我们训练，我们模型定义如下：

它是一个简单的线性计算模型
它只有3 个权重参数
它输出一个数值结果

根据以上定义，我们的模型的线性运算公式定义为：y = W1*x1 + W2*x2 + W3*x3 + b

y 为模型输出，在训练时，则代表模型的目标训练数据集
x 为模型输入，在训练时，则代表模型的输入训练数据集
W 为模型权重，是模型训练的最终结果
b 为调整线性运算结果的偏置向量

我们将根据 y 和 x 训练数据集，逐步训练得出模型权重 W 和 b 值。

本文的源码地址，老牛同学放到评论区。如果大家不想一步一步地跟着老牛同学进行模型训练，也可以直接看源代码，一步到位看完整代码（源代码中还有 1 个权重的样例）。

准备训练数据集

首先，打开 Jupyter Lab 编辑器：

 conda activate PY3.12
jupyter-lab .

为了后面创建数据集、创建模型、模型训练等操作，我们直接引入所有的依赖包：

 import torch
import torch.nn as nn
import random
import torch.optim as optim
import numpy as np

为了方便构建数据集，我们先假设W的内容（偏置向量b值初始化为0）：

 # 随便写几个数字
weights = [1.3, 2.9, 3.7]
w_count = len(weights)

大家可能会有疑问，既然我们都已经知道模型权重了，那我们还训练个啥呢？

别着急，老牛同学提前定义它，有 2 个目的，后面在实际训练时不会使用它：

方便构造我们的训练数据集：因为我们已经确定了模型的线性运算公式，那么我们只需要随机一些x，就可以容易得到训练数据集y了
模型训练结束之后，方便后面做个比对，看下我们训练结果我们预期值是否符合我们预期

我们先构建我们输入数据集，即线性运算公式x的内容，我们通过随机函数构建了 100 个随机数字，并转换模型训练时 PyTorch 张量类型：

 x_list = []
for _ in range(100):
    x_list.append([random.randint(1, 50) for _ in range(w_count)])
 
inputs = torch.tensor(x_list, dtype=torch.float32, requires_grad=True)

输入训练数据集

然后，我们根据的输入数据集 x，构建目标训练数据集，同样转换模型训练时 PyTorch 张量类型：

 y_list = []
for x in x_list:
    y_list.append(np.dot(x, weights))
 
targets = torch.tensor(y_list, dtype=torch.float32)

结果 y 就是输入 x 和模型权重的点积运算：

输出训练数据集

至此，我们的训练数据集已经构建完成（我们可以忘掉权重了）。接下来，我们来构建神经网络模型。

构建神经网络模型

我们把即将构建的神经网络模型定义为LNTXModel（即：老牛同学线性模型）：

 # 线性模型
class LNTXModel(nn.Module):
    def __init__(self):
        super(LNTXModel, self).__init__()
        self.linear = nn.Linear(in_features=w_count, out_features=w_count)
 
    def forward(self, x):
        return self.linear(x)
 
# 实例化模型
model = LNTXModel()
model

在本模型定义中，我们直接使用了nn.Linear线性层，它有 2 个参数：

in_features: 输入特征的数量（即输入向量的维度）
out_features: 输出特征的数量（即输出向量的维度）
bias：偏置向量参数默认为True

定义和初始化模型

然后我们初始化了模型（大语言模型一般为加载模型）。接下来，我们就可以开始使用训练数据集来训练这个模型了。

训练神经网络模型

神经网络模型的训练过程，通常包括以下几步：

首先，进行前向传播以预测结果（即forward函数）
然后，将预测结果与目标结果进行比较，即计算损失值
接着，利用反向传播算法计算损失值的梯度
最后，根据梯度更新模型的参数

首先，我们定义损失函数和优化器：损失函数用于根据模型的预测结果和目标结果计算损失值，而优化器则用于根据计算出的梯度更新模型的权重，以最小化损失。

 # 定义损失函数
loss_fn = nn.MSELoss()
 
# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.0005)

nn.MSELoss() 损失函数常用于回归任务中，用来衡量模型预测值与实际目标值之间的差距。函数返回一个标量张量，代表了所有输入的均方误差。

torch.optim.SGD 是随机梯度下降优化算法，一般用于最小化损失函数。与标准的梯度下降算法相比，随机梯度下降算法每一步更新只基于一个或一小批样本的梯度估计。这种方法能够更快地收敛，并且有助于跳出局部极小点。

其中，lr 学习率（Learning Rate）参数是优化算法中的一个重要超参数，它决定了模型参数在每次更新时的变化幅度。较高的学习率可以加快收敛的速度，但可能会导致优化过程震荡或者无法稳定在最小值附近；而较低的学习率有助于更精确地找到最小值，但可能会陷入局部最小值或者导致训练过程非常缓慢。确定最佳学习率通常需要基于模型、数据集和问题的特性进行反复试验。一般情况下，我们可以从一个较小的学习率开始（比如老牛同学本次设置为0.0005），然后根据模型的收敛情况逐渐增加或减少学习率。

现在，所有准备工作都已经完成，我们可以开始训练我们的模型了。

 # 训练循环，迭代1000次
num_epochs = 1000
for epoch in range(num_epochs):
    for i, x in enumerate(inputs):
        # 前向传播
        predictions = model(x)
 
        # 计算损失
        loss = loss_fn(predictions, targets[i])
 
        # 清空梯度
        optimizer.zero_grad()
 
        # 反向传播
        loss.backward()
 
        # 更新参数
        optimizer.step()
    if (epoch+1) % 100 == 0:
        print('Epoch [{}/{}], Loss: {:.4f}'.format(epoch+1, num_epochs, loss.item()))
 
# 训练完成
print('Train done.')

可以看到，经过900 轮的训练，预测损失接近为0：

模型训练结果

我们可以打印出模型的训练结果，与我们预期结果进行比较：

 print(f'Final weights:{model.linear.weight.data}')
print(f'Final bias:{model.linear.bias.data}')

模型权重和偏置量

可以看出，模型权重与我们预期结果基本吻合，模型巡检结果基本符合预期！

使用神经网络模型

模型训练完成，我们就可以使用我们的模型了：model(x)

 model(torch.tensor([float(1), float(1), float(1)]))

总结：扩展模型大小

至此，我们整个训练过程已经完成了。在上面演示案例中，我们只是用了 3 个权重参数的简单模型，我们可以根据需求，进一步扩大模型参数。但是不论模型权重参数扩大到多少，他们的训练流程基本是一样的：

初始化模型（大语言模型成为加载模型）
根据x输入预测输出y值
通过损失函数计算损失梯度值
最后根据梯度更新模型参数值
直到训练结束，模型权重符合预期

最后的最后，8 月开始了，大家S1 绩效基本都沟通确定了吧？公众号回复都是匿名的，最终绩效结果如何，大家若感觉兴趣，欢迎在评论区留言分享~

基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）

LivePortrait 数字人：开源的图生视频模型，本地部署和专业视频制作详细教程

基于 Qwen2/Lllama3 等大模型，部署团队私有化 RAG 知识库系统的详细教程（Docker+AnythingLLM）

使用 Llama3/Qwen2 等开源大模型，部署团队私有化 Code Copilot 和使用教程

本地部署 GLM-4-9B 清华智谱开源大模型方法和对话效果体验

玩转 AI，笔记本电脑安装属于自己的 Llama 3 8B 大模型和对话客户端

ChatTTS 开源文本转语音模型本地部署、API 使用和搭建 WebUI 界面

Ollama 完整教程：本地 LLM 管理、WebUI 对话、Python/Java 客户端 API 应用

微信公众号：老牛同学

posted @ 2024-08-02 23:50 老牛啊阅读(316) 评论(0) 编辑收藏举报

奔跑的蜗牛·老牛同学

奔跑的蜗牛，记录的点滴：https://ntopic.cn

PyTorch 训练自定义功能齐全的神经网络模型的详细教程

定义神经网络模型

准备训练数据集

构建神经网络模型

训练神经网络模型

使用神经网络模型

总结：扩展模型大小

公告

常用链接

我的标签

合集 (6)

随笔分类 (137)

博客空间

阅读排行榜

推荐排行榜

	import torch
	import torch.nn as nn
	import random
	import torch.optim as optim
	import numpy as np

	# 随便写几个数字
	weights = [1.3, 2.9, 3.7]
	w_count = len(weights)

	x_list = []
	for _ in range(100):
	x_list.append([random.randint(1, 50) for _ in range(w_count)])

	inputs = torch.tensor(x_list, dtype=torch.float32, requires_grad=True)

	y_list = []
	for x in x_list:
	y_list.append(np.dot(x, weights))

	targets = torch.tensor(y_list, dtype=torch.float32)

	# 线性模型
	class LNTXModel(nn.Module):
	def __init__(self):
	super(LNTXModel, self).__init__()
	self.linear = nn.Linear(in_features=w_count, out_features=w_count)

	def forward(self, x):
	return self.linear(x)

	# 实例化模型
	model = LNTXModel()
	model

	# 定义损失函数
	loss_fn = nn.MSELoss()

	# 定义优化器
	optimizer = optim.SGD(model.parameters(), lr=0.0005)

	# 训练循环，迭代1000次
	num_epochs = 1000
	for epoch in range(num_epochs):
	for i, x in enumerate(inputs):
	# 前向传播
	predictions = model(x)

	# 计算损失
	loss = loss_fn(predictions, targets[i])

	# 清空梯度
	optimizer.zero_grad()

	# 反向传播
	loss.backward()

	# 更新参数
	optimizer.step()
	if (epoch+1) % 100 == 0:
	print('Epoch [{}/{}], Loss: {:.4f}'.format(epoch+1, num_epochs, loss.item()))

	# 训练完成
	print('Train done.')

	print(f'Final weights:{model.linear.weight.data}')
	print(f'Final bias:{model.linear.bias.data}')