最大熵模型

最大熵原理是概率模型学习的一个准则，最大熵原理认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

最大熵模型
假设满足所有约束条件的模型集合为\(C\)={P\(\in P\)|\(E_p(f_i)=E_{\hat{p}}(f_i)\),\(i=1,2,\cdots,n\)}
定义在条件概率分布P(Y|X)上的条件熵为\(H(P)=-\sum \hat{p}(x)P(y|x)logP(y|x)\)
最大熵模型的学习过程就是求解最大熵模型的过程，最大熵模型的学习可以形式化为约束最优化问题。最大熵模型的学习等价于约束最优化问题：

\[minmax H(P)=-\sum \hat{p}(x)P(y|x)logP(y|x) \\ s.t. E_p(f_i)-E_{\hat{p}}(f_i)=0,i=1,2,\cdots,n \\ \sum P(y|x)=1\]