摘要: 论文地址 开源代码 论文背景 现有的大语言模型主要通过增加参数来提升性能,忽略了数据中的一些噪声tokens。 主要难题:去除tokens可能会导致语义产生偏差,关键在于如何能准确识别无效tokens。 主要贡献 先在高质量语料库对模型进行训练,根据期望分布对tokens进行评分,过滤掉不相关以及不 阅读全文
posted @ 2025-03-27 20:31 嘉德罗斯大人 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 神经元:神经网络的基本单位。一个神经元代表一个变量(特征)(指在输入层)。 神经网络学习的过程就是在调整神经元的权重(weight)以及偏差(bias)。 神经网络架构: 输入层(Input Layer):接收原始输入数据。 隐藏层(Hidden Layer):对输入数据进行处理,可以有多个隐藏层。 阅读全文
posted @ 2025-03-27 18:07 嘉德罗斯大人 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 学习参考:菜鸟教程 张量 维度由[]决定,一层[]就是一维。 基本操作 操作 说明 示例代码 +, -, *, / 元素级加法、减法、乘法、除法。 z = x + y torch.matmul(x, y) 矩阵乘法。 z = torch.matmul(x, y) torch.dot(x, y) 向量 阅读全文
posted @ 2025-03-26 18:25 嘉德罗斯大人 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 学习参考:菜鸟教程 pytorch基础概念:张量(Tensor)、自动求导(Autograd)、神经网络模块(nn.Module)、优化器(optim)等。 张量(Tensor) pytorch的核心数据结构,可视为多维数组,可以在GPU上并行运算,也可以运行在不同的设备上来加快计算速度。 维度(D 阅读全文
posted @ 2025-03-25 18:41 嘉德罗斯大人 阅读(2) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示