嘉德罗斯大人

2025年3月27日

RHO-1: Not All Tokens Are What You Need 阅读笔记

摘要：论文地址开源代码论文背景现有的大语言模型主要通过增加参数来提升性能，忽略了数据中的一些噪声tokens。主要难题：去除tokens可能会导致语义产生偏差，关键在于如何能准确识别无效tokens。主要贡献先在高质量语料库对模型进行训练，根据期望分布对tokens进行评分，过滤掉不相关以及不阅读全文

posted @ 2025-03-27 20:31 嘉德罗斯大人阅读(5) 评论(0) 推荐(0) 编辑

pytorch学习日记(3)--神经网络

摘要：神经元：神经网络的基本单位。一个神经元代表一个变量(特征)(指在输入层)。神经网络学习的过程就是在调整神经元的权重(weight)以及偏差(bias)。神经网络架构：输入层（Input Layer）：接收原始输入数据。隐藏层（Hidden Layer）：对输入数据进行处理，可以有多个隐藏层。阅读全文

posted @ 2025-03-27 18:07 嘉德罗斯大人阅读(3) 评论(0) 推荐(0) 编辑

2025年3月26日

pytorch学习日记(2)

摘要：学习参考：菜鸟教程张量维度由[]决定，一层[]就是一维。基本操作操作说明示例代码 +, -, *, / 元素级加法、减法、乘法、除法。 z = x + y torch.matmul(x, y) 矩阵乘法。 z = torch.matmul(x, y) torch.dot(x, y) 向量阅读全文

posted @ 2025-03-26 18:25 嘉德罗斯大人阅读(5) 评论(0) 推荐(0) 编辑

2025年3月25日

pytorch学习日记(1)

摘要：学习参考：菜鸟教程 pytorch基础概念：张量（Tensor）、自动求导（Autograd）、神经网络模块（nn.Module）、优化器（optim）等。张量（Tensor) pytorch的核心数据结构，可视为多维数组，可以在GPU上并行运算，也可以运行在不同的设备上来加快计算速度。维度（D 阅读全文

posted @ 2025-03-25 18:41 嘉德罗斯大人阅读(2) 评论(0) 推荐(0) 编辑

公告

昵称：嘉德罗斯大人
园龄： 5个月
粉丝： 0
关注： 0

+加关注

2025年4月

日

一

二

三

四

五

六

随笔档案

2025年3月(4)

公告

搜索

常用链接

随笔档案