摘要: BERT基础 阅读全文
posted @ 2026-01-30 00:33 xggx 阅读(16) 评论(0) 推荐(0)
摘要: Transformer基础 阅读全文
posted @ 2026-01-30 00:11 xggx 阅读(6) 评论(0) 推荐(0)
摘要: 注意力机制 引言 在认识注意力机制之前,先简单了解机器翻译任务。seq2seq模型架构包括三部分:编码器(Encoder)、解码器(Decoder)和中间语义张量\(c\)。如下图所示,这是一个中文到英文的翻译示例:欢迎来北京 → welcome to BeiJing。 编码器首先处理中文输入"欢迎 阅读全文
posted @ 2026-01-24 21:52 xggx 阅读(8) 评论(0) 推荐(0)
摘要: LSTM & GRU LSTM模型 LSTM介绍 LSTM(Long Short-Term Memory,长短时记忆网络)是传统RNN的变体,与经典RNN相比能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象。LSTM的结构比传统RNN更复杂,其核心结构可以分为四个部分: 遗忘门:决定从细胞状 阅读全文
posted @ 2026-01-21 16:33 xggx 阅读(13) 评论(0) 推荐(0)
摘要: 循环神经网络(RNN) RNN概念 循环神经网络(Recurrent Neural Network, RNN)是一种专门处理序列数据的神经网络。与传统的前馈神经网络不同,RNN具有“循环”结构,能够处理和记住前面时间步的信息,使其特别适用于时间序列数据或有时序依赖的任务。 序列数据是指数据点之间存在 阅读全文
posted @ 2026-01-16 12:52 xggx 阅读(9) 评论(0) 推荐(0)
摘要: 卷积神经网络(CNN) 卷积神经网络(CNN)概述 卷积神经网络是深度学习在计算机视觉领域的突破性成果,专门用于处理图像、视频、语音等具有网格结构数据的神经网络。 在计算机视觉领域,输入的图像通常较大,使用全连接网络会产生巨大的计算代价。此外,全连接网络难以有效保留图像的空间特征,导致图像处理的准确 阅读全文
posted @ 2026-01-13 16:59 xggx 阅读(22) 评论(0) 推荐(0)
摘要: ANN-- PyTorch 手机价格分类 导包 import torch from torch.utils.data import TensorDataset from torch.utils.data import DataLoader import torch.nn as nn import t 阅读全文
posted @ 2026-01-12 21:24 xggx 阅读(3) 评论(0) 推荐(0)
摘要: 学习率衰减优化 和 正则化 学习率衰减优化 在训练神经网络时,学习率通常需要随着训练过程动态调整。主要原因如下: 训练后期若学习率过高,可能导致损失函数在最小值附近震荡,难以收敛 若学习率减小过慢,则收敛速度会变慢,训练时间延长 若学习率减小过快,则可能陷入局部最优或提前停止学习 学习率衰减策略通过 阅读全文
posted @ 2026-01-10 17:33 xggx 阅读(42) 评论(0) 推荐(0)
摘要: 梯度下降优化算法 在梯度下降优化算法中,可能会遇到以下情况: 遇到平缓区域,梯度值较小,参数优化变慢 遇到"鞍点",梯度为0,参数无法继续优化 遇到局部最小值,参数无法达到全局最优 为了解决这些问题,研究者们提出了一系列梯度下降优化算法的改进方法,例如:Momentum、AdaGrad、RMSPro 阅读全文
posted @ 2026-01-08 00:39 xggx 阅读(23) 评论(0) 推荐(0)
摘要: 损失函数 概述: 在机器学习和深度学习中,损失函数(Loss Function)用于衡量模型预测值与真实值之间的差异。它是训练过程中优化的目标,通过最小化损失函数来提升模型的性能。 也叫"代价函数"(Cost Function)或"目标函数"(Objective Function)或"误差函数"(E 阅读全文
posted @ 2026-01-06 16:56 xggx 阅读(29) 评论(0) 推荐(0)