摘要:
1. loss 是一个单值 假设输入的词元id是[0, 1] 目标词元id是[1, 2] 也就是根据输入得到两个预测输出, 注意上面的是id,每个id实际上是一个嵌入向量,比如768维向量, 假设词汇表是3,实际词汇表可能是5w 通过模型矩阵计算后,对于输入的每一个位置,都会输出一个3维度的向量,对 阅读全文
posted @ 2025-06-23 16:56
longbigfish
阅读(5)
评论(0)
推荐(0)