from_logits是一个布尔量,当from_logits=True的时候,该层会将output做normalize(softmax)
因此,一个直观的理解就是layerA with activation + softmax + loss(from_logits=False)与layerA + loss(from_logits=True)等效