求最好的w,b可以产生Training Data,定义 f_w,b=P_w,b(C1|X) 为对于一个实例类标签为C1的概率
其似然函数就是将所有的 f_w,b相乘
交叉熵用来度量 p 分布和 q 分布有多接近