（十三）T5是如何计算损失的

在 T5 模型中，输出的 logits 张量通常有以下形状：

logits.shape -> (batch_size, seq_len, vocab_size)

真实标签 labels 张量的形状为：

labels.shape -> (batch_size, seq_len)

为了计算交叉熵损失，我们需要将 logits 和 labels 转换为合适的形状。具体步骤如下：

转换 logits 的形状：

交叉熵损失函数期望 logits 的形状为 (N, C)，其中 N 是样本数，C 是每个样本的类别数。对于序列任务，这里的 N 等于 batch_size * seq_len，C 等于 vocab_size。

因此，我们需要将 logits 的形状从 (batch_size, seq_len, vocab_size) 转换为 (batch_size * seq_len, vocab_size)。

logits = logits.view(-1, vocab_size)
转换 labels 的形状：

交叉熵损失函数期望 labels 的形状为 (N)，其中 N 是样本数。对于序列任务，这里的 N 也是 batch_size * seq_len。

因此，我们需要将 labels 的形状从 (batch_size, seq_len) 转换为 (batch_size * seq_len)。

labels = labels.view(-1)

在转换形状后，我们可以计算交叉熵损失。nn.CrossEntropyLoss 函数会自动将 logits 传递到 softmax 函数中，因此我们只需传入转换后的 logits 和 labels。

loss = self.loss_fn(logits.view(-1, vocab_size), labels.view(-1))

提取模型输出的 logits 并获取其形状：

logits = outputs.logits batch_size, seq_len, vocab_size = logits.size()
计算每个标签序列的实际长度（去掉 pad）：

label_lengths = (labels != tokenizer.pad_token_id).sum(dim=1)
初始化权重张量并为每个标签序列计算权重：

weights = torch.zeros_like(labels, dtype=torch.float) for i, length in enumerate(label_lengths): length = length.item() weights[i, :length] = torch.arange(length + 1, 1, -1, dtype=torch.float)
将 logits 和 labels 转换为合适的形状并计算交叉熵损失：

loss = self.loss_fn(logits.view(-1, vocab_size), labels.view(-1)) loss = loss.view(batch_size, seq_len)
应用权重并计算加权平均损失：

weighted_loss = loss * weights weighted_loss = weighted_loss.sum() / weights.sum()

通过这种方式，我们可以为每个标签位置应用不同的权重，从而计算加权的交叉熵损失。

一、概述