总结: NLLLoss, CrossEntropyLoss, BCELoss, BCEWithLogitsLoss比较，以及交叉熵损失函数推导

一、pytorch中各损失函数的比较

总结这两篇博客的内容就是：

CrossEntropyLoss函数包含Softmax层、log和NLLLoss层，适用于单标签任务，主要用在单标签多分类任务上，当然也可以用在单标签二分类上。
BCEWithLogitsLoss函数包括了Sigmoid层和BCELoss层，适用于二分类任务，可以是单标签二分类，也可以是多标签二分类任务。

以上这几个损失函数本质上都是交叉熵损失函数，只不过是适用范围不同而已。

第一条的原因是：

也就是说，各个class的得分是互斥的，这个class得分多了，另个class的得分会减少。

第二条的原因是：

也就是说，各个class的得分是独立的，互不影响，所以可以进行多标签预测。

二、程序示例

在使用中，最常遇到的情况是，CrossEntropyLoss的predict是一个二维张量，target是一维张量，例如：

loss = nn.CrossEntropyLoss()
predict = torch.randn(3, 5, requires_grad=True)   # 3个样本，5个类别
target = torch.empty(3, dtype=torch.long).random_(5)   
# torch.long表示长整型，torch.empty(3)表示产生一维向量，长度为3，元素内容为空。
# random_(5)表示用0到4的整数去填充3个空元素。之所以是整数，是因为前面规定了torch.long。

output = loss(predict, target)
output.backward()

CrossEntropyLoss的计算公式为(本质上是交叉熵公式+softmax公式)：

BCEWithLogitsLoss和BCELoss的predict和target必须保持维度相同，即同时是一维张量，或者同时是二维张量，例如：

m = nn.Sigmoid()
loss = nn.BCELoss()

# predict和target同为一维张量
predict = torch.randn(3, requires_grad=True)
target = torch.empty(3).random_(2)  # 填充的是0或1 
output = loss(m(predict), target)
output.backward()

# predict和target同为二维张量
predict = torch.randn([5, 3], requires_grad=True)
target = torch.empty([5, 3]).random_(2)   
output = loss(m(predict), target)
output.backward()

-------------------------------------------

loss = nn.BCEWithLogitsLoss()

# predict和target同为一维张量
predict = torch.randn(3, requires_grad=True)
target = torch.empty(3).random_(2)   
output = loss(predict, target)
output.backward()

# predict和target同为二维张量
predict = torch.randn([5,3], requires_grad=True)
target = torch.empty([5,3]).random_(2)  
output = loss(predict, target)
output.backward()