softmax和crossentropy - 风生水起

当进行多分类任务时，通常会使用 Softmax 函数和 CrossEntropyLoss 损失函数来处理模型的输出和计算损失。

Softmax 函数： Softmax 函数用于将模型的原始输出转换为概率分布。对于一个具有 K 个类别的模型输出向量 z，Softmax 函数的定义如下：

softmax(z_i) = exp(z_i) / sum(exp(z_j))，其中 i = 1, 2, ..., K

Softmax 函数将每个元素 z_i 转换为一个介于 0 到 1 之间的实数，使得所有元素的和等于 1。这样，每个元素表示了对应类别的概率估计。Softmax 函数可以用来将模型的原始输出转化为概率分布，以便进行多分类任务的预测。

CrossEntropyLoss 损失函数： CrossEntropyLoss 是用于多分类任务的常见损失函数。对于一个具有 K 个类别的预测概率分布 y_pred 和真实标签 y_true，CrossEntropyLoss 的定义如下：

CE(y_pred, y_true) = -sum(y_true * log(y_pred))

其中，y_true 是一个 one-hot 编码的向量，表示真实标签的类别，y_pred 是预测的类别概率分布。

CrossEntropyLoss 计算预测概率分布 y_pred 和真实标签 y_true 之间的交叉熵损失。交叉熵损失可以衡量预测分布和真实分布之间的差异。当预测概率分布与真实标签完全匹配时，交叉熵损失为 0。随着预测分布和真实分布之间的差异增加，损失值也会增加。

使用 Softmax 函数和 CrossEntropyLoss 损失函数的步骤如下：

通过 Softmax 函数和 CrossEntropyLoss 损失函数的组合，可以在多分类任务中对模型进行训练，并优化模型的预测结果。