摘要:
论文地址 开源代码 论文背景 现有的大语言模型主要通过增加参数来提升性能,忽略了数据中的一些噪声tokens。 主要难题:去除tokens可能会导致语义产生偏差,关键在于如何能准确识别无效tokens。 主要贡献 先在高质量语料库对模型进行训练,根据期望分布对tokens进行评分,过滤掉不相关以及不 阅读全文
摘要:
神经元:神经网络的基本单位。一个神经元代表一个变量(特征)(指在输入层)。 神经网络学习的过程就是在调整神经元的权重(weight)以及偏差(bias)。 神经网络架构: 输入层(Input Layer):接收原始输入数据。 隐藏层(Hidden Layer):对输入数据进行处理,可以有多个隐藏层。 阅读全文