Fork me on GitHub

费希尔信息数(Fisher Infomation)

解释1:
在深度学习中,Fisher信息矩阵(FIM)是一种可以用来表征损失函数的变化,进行二阶优化,和构建几何学习理论的工具。FIM衡量了模型输出对模型参数变化的敏感度。然而,精确的FIM要么不存在闭式解,要么计算代价太高,所以通常根据经验样本来估计。
 
改善Fisher的条件数意味着降低FIM估计量的方差,这会影响优化和学习算法的质量和效率。改善Fisher条件数的一种方法是使用正则化技术,例如在损失函数中添加惩罚项或者对网络层应用dropout 。另一种方法是利用深度神经网络的参数结构,设计更稳健的估计量,能够抵抗噪声和异常值。

解释2:

Fisher信息是一种衡量参数估计量精确度的方法,它是由英国统计学家Ronald Fisher提出的。在统计学中,Fisher信息通常用于计算似然函数的变化率,即对数似然函数的二阶导数。Fisher信息矩阵是一个正定矩阵,它的逆矩阵被称为协方差矩阵,可以用来计算参数估计量的标准误差。

 

Fisher信息的重要性在于它提供了一个量化参数估计量精确度的方法,可以用于比较不同的估计量。在实际应用中,Fisher信息也被用于设计实验,以便最大化参数估计量的精确度。


 

解释3:

Fisher Infomation的意义
Fisher Information 顾名思义,就是用来衡量样本数据的信息量的,通常我们有一组样本,我们在机器学习中需要估计出样本的分布,我们是利用样本所具有的信息量来估计参数的,样本中具有的信息量越多,估计的参数越准,样本的分布估计的就越接近真实分布,这里的信息量就是用Fisher Information来表示的。

什么样本信息量比较大?
我们用样本发生的概率来衡量样本本身所携带的信息量,如果样本发生的概率比较大,那么说明我们在这个样本上可以学习到的东西不多,例如机器学习中,样本一上来概率就都是1,那么参数w就基本学习不出了,相反,如果样本发生的概率比较小,就可以认为该样本携带的信息很多。
————————————————
版权声明:本文为CSDN博主「懒人元」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lanran2/article/details/77995062


 

解释4:

为了解得Maximum Likelihood Estimate(MLE),我们要让log likelihood的一阶导数得0,然后解这个方程,得到theta^{hat}_MLE

这个log likelihood的一阶导数也叫,Score function

那么Fisher Information的定义就是这个Score function的二阶矩

于是得到了Fisher Information的第一条数学意义:就是用来估计MLE的方程的方差。它的直观表述就是,随着收集的数据越来越多,这个方差由于是一个Independent sum的形式,也就变的越来越大,也就象征着得到的信息越来越多。

Fisher Information的第二条数学意义:log likelihood在参数真实值处的负二阶导数的期望

对于这样的一个log likelihood function,它越平而宽,就代表我们对于参数估计的能力越差,它高而窄,就代表我们对于参数估计的能力越好,也就是信息量越大。而这个log likelihood在参数真实值处的负二阶导数,就反应了这个log likelihood在顶点处的弯曲程度,弯曲程度越大,整个log likelihood的形状就越偏向于高而窄,也就代表掌握的信息越多。

Fisher Information的第三条数学意义:theta协方差的逆矩阵(它的逆矩阵被称为协方差矩阵)。Fisher Information反映了我们对参数估计的准确度,它越大,对参数估计的准确度越高,即代表了越多的信息。

 
posted @ 2023-04-23 15:23  stardsd  阅读(1616)  评论(0编辑  收藏  举报