条件熵定义
条件熵定义的最原始形式
\[H(Y|X)=\sum_{x\in X} p(x)H(Y|X=x)
\]
或者写成这样
\[H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i)
\]
这里 \(n\) 表示随机变量 \(X\) 取值的个数,不管是条件熵还是熵,都是计算 \(Y\) (可以理解为因变量)的熵,\(H(Y|X)\) 可以理解为在已知一些信息的情况下,因变量 \(Y\) 的不纯度,即在
\(X\) 的划分下,\(Y\) 被分割越来越“纯”的程度,即信息的加入可以降低熵。
这里又假设随机变量 \(Y\) 有 \(m\) 个取值,将 \(H(Y|X=x_i)\) 用定义式
\[H(Y|X=x_i) = - \sum_{j=1}^{m} p(y_j|X=x_i)\log p(y_j|X=x_i)$$ 代入上式,得
\]
\begin{equation}\begin{split}
H(Y|X)&=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) \
&=\sum_{i=1}^{n} p(x_i)\left(- \sum_{j=1}^{m} p(y_j|X=x_i) \log p(y_j|X=x_i)\right)\
&=-\sum_{i=1}^{n}p(x_i) \sum_{j=1}^{m} p(y_j|x_i) \log p(y_j|x_i)
\end{split}\end{equation}
\[
即
\]
H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) =-\sum_{i=1}^{n}p(x_i) \sum_{j=1}^{m} p(y_j|x_i) \log p(y_j|x_i)
\[
+ 条件熵表示在已知随机变量 $X$ 的条件下,$Y$ 的**条件概率分布**的熵**对随机变量 $X$**的数学期望。
+ 熵是数学期望(信息量的数学期望),条件熵也是数学期望,是数学期望的数学期望,有点拗口,不妨把定义多看几遍,就清楚了。\]