最大似然估计(Maximum Likelihood Estimation, MLE)是一种用于统计推断的方法,旨在通过给定的数据找到使观测数据出现概率最大的参数值。极大似然估计法(the Principle of Maximum Likelihood )由高斯和费希尔(R.A.Figher)先后提出,是被使用最广泛的一种参数估计方法,该方法建立的依据是直观的最大似然原理。通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。 极大似然估计(Maximum likelihood estimation)可以简单理解为我们有一堆数据(数据之间是独立同分布的.iid),为了得到这些数据,我们设计了一个模型,极大似然估计就是求使模型能够得到这些数据的最大可能性的参数 ,这是一个统计(statistics)问题。
与概率(probability)的区别:概率是我们已知参数θ θ 来预测结果,比如对于标准高斯分布X ~ N ( 0 , 1 ) X ~ N ( 0 , 1 ) ,我们知道了确切的表达式,那么最终通过模型得到的结果我们大致也可以猜测到。但是对于统计问题,我们预先知道了结果,比如我们有10000个样本(他们可能服从某一分布,假设服从高斯分布),我们的目的就是估计μ & σ μ & σ 使得我们假设的模型能够最大概率的生成我们目前知道的样本。
一、问题引入
1.1 例1
假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?
很多人马上就有答案了:70%。而其后的理论支撑是什么呢?
我们假设罐中白球的比例是p p ,那么黑球的比例就是1-p p 。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。
这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是P P (样本结果|Model)。如果第一次抽象的结果记为x 1 x 1 ,第二次抽样的结果记为x 2 x 2 ....那么样本结果为(x 1 x 1 ,x 2 x 2 ,...,x 100 x 100 )。这样,我们可以得到如下表达式:
P ( 样 本 结 果 | M o d e l ) = P ( x 1 , x 2 , . . . , x 100 | M o d e l ) = P ( x 1 | M o d e l ) P ( x 2 | M o d e l ) … P ( x 100 | M o d e l ) = p 70 ( 1 − p ) 30 P ( 样 本 结 果 | M o d e l ) = P ( x 1 , x 2 , . . . , x 100 | M o d e l ) = P ( x 1 | M o d e l ) P ( x 2 | M o d e l ) … P ( x 100 | M o d e l ) = p 70 ( 1 − p ) 30
好的,我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数,也就是求的式中的p p 。
那么我们怎么来求这个p p 呢?不同的p p ,直接导致P ( 样 本 结 果 | M o d e l ) P ( 样 本 结 果 | M o d e l ) 的不同。好的,我们的p p 实际上是有无数多种分布的。如下:
p p (白球的比例)
1-p p (黑球的比例)
p p (白球的比例)
1-p p (黑球的比例)
50%
50%
70%
30%
那么问题来了,既然有无数种分布可以选择,极大似然估计应该按照什么原则去选取这个分布呢?
采取的方法是让这个样本结果出现的可能性最大,也就是使得p 70 ( 1 − p ) 30 p 70 ( 1 − p ) 30 值最大,那么我们就可以看成是p p 的方程,求导即可!
那么既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。
我们想办法让观察样本出现的概率最大,转换为数学问题就是使得:
p 70 ( 1 − p ) 30 p 70 ( 1 − p ) 30 最大,未知数只有一个p p ,我们令其导数为0,即可求出p p 为70%,与我们一开始认为的70%是一致的,其中蕴含的数学思想在里面。
1.2 例2
假设我们要统计全国人民的年均收入,首先假设这个收入服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的收入。我们国家有10几亿人口呢?那么岂不是没有办法了?
不不不,有了极大似然估计之后,我们可以采用嘛!我们比如选取一个城市,或者一个乡镇的人口收入,作为我们的观察样本结果。然后通过最大似然估计来获取上述假设中的正态分布的参数。
有了参数的结果后,我们就可以知道该正态分布的期望和方差了。也就是我们通过了一个小样本的采样,反过来知道了全国人民年收入的一系列重要的数学指标量!
二、似然函数
似然性(likelihood)与概率(possibility)同样可以表示事件发生的可能性大小,但是二者有着很大的区别:
概率p ( x | θ ) p ( x | θ ) 是在已知参数θ θ 的情况下,发生观测结果 x x 可能性大小;
似然性L ( θ | x ) L ( θ | x ) 则是从观测结果x x 出发,分布函数的参数为 θ θ 的可能性大小。
可能听着不是那么好理解。似然函数是一种关于统计模型中的参数 的函数,表示模型参数中的似然性,用L L 表示,给定输出x x 时,关于参数θ θ 的似然函数L ( θ | x ) L ( θ | x ) 在数值上等于给定参数θ θ 后变量x x 的概率
L ( θ | x ) = P ( X = x | θ ) = p ( x | θ ) L ( θ | x ) = P ( X = x | θ ) = p ( x | θ )
其中x x 已知,θ θ 未知。若对于两个参数θ 1 , θ 2 θ 1 , θ 2 ,有
L ( θ 1 | x ) = p ( x | θ 1 ) > p ( x | θ 2 ) = L ( θ 2 | x ) L ( θ 1 | x ) = p ( x | θ 1 ) > p ( x | θ 2 ) = L ( θ 2 | x )
那么意味着 θ = θ 1 θ = θ 1 时,随机变量 X X 生成x x 的概率大于当参数 θ = θ 2 θ = θ 2 时。这也正是似然的意义所在,若观测数据为 x x ,那么 θ 1 θ 1 是比θ 2 θ 2 更有可能为分布函数的参数。在不同的时候,p ( x | θ ) p ( x | θ ) 可以表示概率也可以用于计算似然。
在统计学习中,我们有N N 个样本x 1 , x 2 , x 3 , . . . , x N x 1 , x 2 , x 3 , . . . , x N ,假设他们之间是相互独立的,那么似然函数
L ( θ ) = P ( X 1 = x 1 , X 2 = x 2 , . . . , X N = x N ) = N ∏ i = 1 p ( X i = x i ) = N ∏ i = 1 p ( x i , θ ) L ( θ ) = P ( X 1 = x 1 , X 2 = x 2 , . . . , X N = x N ) = ∏ i = 1 N p ( X i = x i ) = ∏ i = 1 N p ( x i , θ )
极大似然函数的目的就是求解一个θ θ 使得L ( θ ) L ( θ ) 最大。
三、正态分布的最大似然估计(MLE)
这里用一维高斯分布来判断μ μ 和σ 2 σ 2 的无偏性及有偏性,一维正态高斯分布函数
f ( x | θ ) = f ( x | μ , σ ) = 1 √ 2 π σ e − ( x − μ ) 2 2 σ 2 f ( x | θ ) = f ( x | μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2
其中最大似然估计MLE :^ θ = a r g m a x θ l n L ( X | μ , σ ) θ ^ = a r g m a x θ l n L ( X | μ , σ )
(1)已知σ 2 σ 2 ,未知μ μ ,求μ μ 的最大似然估计量^ μ μ ^
似然函数: L ( X ∣ μ ) = ∏ N i = 1 p ( x i ∣ μ ) = ∏ N i = 1 1 √ 2 π σ e − ( x i − μ ) 2 2 σ 2 L ( X ∣ μ ) = ∏ i = 1 N p ( x i ∣ μ ) = ∏ i = 1 N 1 2 π σ e − ( x i − μ ) 2 2 σ 2
两边分别取对数: ln L ( X ∣ μ ) = ln ∏ N i = 1 p ( x i ∣ μ ) = − N 2 ln ( 2 π ) − N ln σ − 1 2 σ 2 ∑ N i = 1 ( x i − μ ) 2 ln L ( X ∣ μ ) = ln ∏ i = 1 N p ( x i ∣ μ ) = − N 2 ln ( 2 π ) − N ln σ − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2
两边对 μ μ 求导
d ln L ( X ∣ μ ) d μ = N ∑ i = 1 1 σ 2 ( x i − μ ) = 0 N ∑ i = 1 ( x i − μ ) = 0 → N ∑ i = 1 x i − N μ = 0 ^ μ = 1 N N ∑ i = 1 x i = ¯ X d ln L ( X ∣ μ ) d μ = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 ∑ i = 1 N ( x i − μ ) = 0 → ∑ i = 1 N x i − N μ = 0 μ ^ = 1 N ∑ i = 1 N x i = X ¯
可以发现,当σ 2 σ 2 已知时,μ μ 的最大似然估计量只受样本的影响, ^ μ μ ^ 是 μ μ 的无偏估计
E [ ^ μ ] = E [ 1 N N ∑ i = 1 x i ] = 1 N N ∑ i = 1 E [ x i ] = 1 N N μ = μ E [ μ ^ ] = E [ 1 N ∑ i = 1 N x i ] = 1 N ∑ i = 1 N E [ x i ] = 1 N N μ = μ
(2)已知μ μ ,未知σ 2 σ 2 ,求σ 2 σ 2 的最大似然估计量^ σ 2 σ ^ 2
似然函数:
L ( X ∣ σ 2 ) = ∏ N i = 1 p ( x i ∣ σ 2 ) = ∏ N i = 1 1 √ 2 π σ e − ( x i − μ ) 2 2 σ 2 L ( X ∣ σ 2 ) = ∏ i = 1 N p ( x i ∣ σ 2 ) = ∏ i = 1 N 1 2 π σ e − ( x i − μ ) 2 2 σ 2
两边分别取对数:
ln L ( X ∣ σ 2 ) = ln ∏ N i = 1 p ( x i ∣ σ 2 ) = − N 2 ln ( 2 π ) − N ln σ − 1 2 σ 2 ∑ N i = 1 ( x i − μ ) 2 ln L ( X ∣ σ 2 ) = ln ∏ i = 1 N p ( x i ∣ σ 2 ) = − N 2 ln ( 2 π ) − N ln σ − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 两边对 σ 2 σ 2 求导
d ln L ( X ∣ σ 2 ) d σ 2 = N ∑ i = 1 1 σ 2 ( x i − μ ) = 0 − N 2 σ 2 + 1 2 σ 4 N ∑ i = 1 ( x i − μ ) 2 = 0 ^ σ 2 = 1 N N ∑ i = 1 ( x i − μ ) 2 d ln L ( X ∣ σ 2 ) d σ 2 = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 − N 2 σ 2 + 1 2 σ 4 ∑ i = 1 N ( x i − μ ) 2 = 0 σ ^ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2
可以发现,当μ μ 已知时,^ σ 2 σ ^ 2 的最大似然估计量 受到样本以及样本均值的影响, ^ σ 2 σ ^ 2 是 σ 2 σ 2 的无偏估计
E [ ^ σ 2 ] = E [ 1 N N ∑ i = 1 ( x i − μ ) 2 ] = E [ 1 N N ∑ i = 1 x 2 i − 1 N N ∑ i = 1 2 x i μ + 1 N N ∑ i = 1 μ 2 ] = E [ 1 N i = 1 ∑ N x 2 i − 2 μ 2 + μ 2 ] = E [ 1 N N ∑ i = 1 x 2 i − μ 2 ] = 1 N N ∑ i = 1 ( E ( x 2 i ) − E 2 ( x i ) ) = D ( x i ) = σ 2 E [ σ ^ 2 ] = E [ 1 N ∑ i = 1 N ( x i − μ ) 2 ] = E [ 1 N ∑ i = 1 N x i 2 − 1 N ∑ i = 1 N 2 x i μ + 1 N ∑ i = 1 N μ 2 ] = E [ 1 N ∑ N i = 1 x i 2 − 2 μ 2 + μ 2 ] = E [ 1 N ∑ i = 1 N x i 2 − μ 2 ] = 1 N ∑ i = 1 N ( E ( x i 2 ) − E 2 ( x i ) ) = D ( x i ) = σ 2
(3)μ μ 和σ 2 σ 2 均未知,求μ μ 、σ 2 σ 2 的最大似然估计量^ μ μ ^ 和^ σ 2 σ ^ 2
似然函数: L ( X ∣ μ , σ 2 ) = ∏ N i = 1 p ( x i ∣ μ , σ 2 ) = ∏ N i = 1 1 √ 2 π σ e − ( x i − μ ) 2 2 σ 2 L ( X ∣ μ , σ 2 ) = ∏ i = 1 N p ( x i ∣ μ , σ 2 ) = ∏ i = 1 N 1 2 π σ e − ( x i − μ ) 2 2 σ 2
两边分别取对数: ln L ( X ∣ μ , σ 2 ) = ln ∏ N i = 1 p ( x i ∣ μ , σ 2 ) = − N 2 ln ( 2 π ) − N ln σ − 1 2 σ 2 ∑ N i = 1 ( x i − μ ) 2 ln L ( X ∣ μ , σ 2 ) = ln ∏ i = 1 N p ( x i ∣ μ , σ 2 ) = − N 2 ln ( 2 π ) − N ln σ − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2
d ln L ( X ∣ μ ) d μ = N ∑ i = 1 1 σ 2 ( x i − μ ) = 0 N ∑ i = 1 ( x i − μ ) = 0 → N ∑ i = 1 x i − N μ = 0 ^ μ = 1 N N ∑ i = 1 x i = ¯ X d ln L ( X ∣ μ ) d μ = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 ∑ i = 1 N ( x i − μ ) = 0 → ∑ i = 1 N x i − N μ = 0 μ ^ = 1 N ∑ i = 1 N x i = X ¯
d ln L ( X ∣ σ 2 ) d σ 2 = N ∑ i = 1 1 σ 2 ( x i − μ ) = 0 − N 2 σ 2 + 1 2 σ 4 N ∑ i = 1 ( x i − μ ) 2 = 0 ^ σ 2 = 1 N N ∑ i = 1 ( x i − ^ μ ) 2 = 1 N N ∑ i = 1 ( x i − ¯ X ) 2 d ln L ( X ∣ σ 2 ) d σ 2 = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 − N 2 σ 2 + 1 2 σ 4 ∑ i = 1 N ( x i − μ ) 2 = 0 σ ^ 2 = 1 N ∑ i = 1 N ( x i − μ ^ ) 2 = 1 N ∑ i = 1 N ( x i − X ¯ ) 2
可以发现,当 μ μ 的最大似然估计量 ^ μ μ ^ 只受样本的影响(因为在计算时 σ 2 σ 2 被消去了), ^ μ μ ^ 是 μ μ 的无偏估计 E [ ^ μ ] = E [ ¯ X ] = E [ 1 N ∑ N i = 1 x i ] = 1 N ∑ N i = 1 E [ x i ] = 1 N N μ = μ E [ μ ^ ] = E [ X ¯ ] = E [ 1 N ∑ i = 1 N x i ] = 1 N ∑ i = 1 N E [ x i ] = 1 N N μ = μ
但是在计算σ 2 σ 2 的最大似然估计量^ σ 2 σ ^ 2 不仅受到样本的影响,还受到μ μ 的影响,其中μ μ 未知,只能用计算出的^ μ μ ^ 来替代,通过下面计算可以发现^ σ 2 σ ^ 2 是σ 2 σ 2 的有偏估计
E [ ^ σ 2 ] = E [ 1 N N ∑ i = 1 ( x i − ¯ X ) 2 ] = E [ 1 N N ∑ i = 1 x 2 i − 1 N N ∑ i = 1 2 x i ¯ X + 1 N N ∑ i = 1 ¯ X 2 ] = E [ 1 N i = 1 ∑ N x 2 i − 2 ¯ X 2 + ¯ X 2 ] = E { ( 1 N N ∑ i = 1 x 2 i − ¯ X 2 ) − ( ¯ X 2 − ¯ X 2 ) } = E [ ( 1 N N ∑ i = 1 x 2 i − ¯ X 2 ) ] − E ( ¯ X 2 − ¯ X 2 ) = 1 N N ∑ i = 1 [ E ( x 2 i ) − E 2 ( x i ) ] − [ E ( ¯ X 2 ) − E 2 ( ¯ X ) ] = D ( x i ) − D ( ¯ X ) = σ 2 − σ 2 N = N − 1 N σ 2 E [ σ ^ 2 ] = E [ 1 N ∑ i = 1 N ( x i − X ¯ ) 2 ] = E [ 1 N ∑ i = 1 N x i 2 − 1 N ∑ i = 1 N 2 x i X ¯ + 1 N ∑ i = 1 N X ¯ 2 ] = E [ 1 N ∑ N i = 1 x i 2 − 2 X ¯ 2 + X ¯ 2 ] = E { ( 1 N ∑ i = 1 N x i 2 − X ¯ 2 ) − ( X ¯ 2 − X ¯ 2 ) } = E [ ( 1 N ∑ i = 1 N x i 2 − X ¯ 2 ) ] − E ( X ¯ 2 − X ¯ 2 ) = 1 N ∑ i = 1 N [ E ( x i 2 ) − E 2 ( x i ) ] − [ E ( X ¯ 2 ) − E 2 ( X ¯ ) ] = D ( x i ) − D ( X ¯ ) = σ 2 − σ 2 N = N − 1 N σ 2
所以在计算样本的方差 S 2 S 2 时,需要在在前面乘上一个系数,即 S 2 = N N − 1 E [ ^ σ 2 ] S 2 = N N − 1 E [ σ ^ 2 ]
四、二项分布的最大似然估计(MLE)
4.1 似然函数的构造
二项分布(Binomial Distribution)的概率质量函数(PMF)定义如下:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , 2 , … , n P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , 2 , … , n
其中:
n n 是试验次数(已知常数);
p p 是单次试验成功的概率(待估参数);
k k 是成功的次数;
( n k ) ( n k ) 是二项系数,表示从 n n 次试验中选取 k k 次成功的方法数。
假设我们有 m m 组独立观测数据 ( X 1 , X 2 , … , X m ) ( X 1 , X 2 , … , X m ) ,每个 X i X i 都服从相同的二项分布 Bin ( n , p ) Bin ( n , p ) 。则联合似然函数(Likelihood Function)为:
L ( p ) = m ∏ i = 1 P ( X i = k i ) = m ∏ i = 1 ( n k i ) p k i ( 1 − p ) n − k i L ( p ) = ∏ i = 1 m P ( X i = k i ) = ∏ i = 1 m ( n k i ) p k i ( 1 − p ) n − k i
由于二项系数 ( n k i ) ( n k i ) 仅依赖于已知的 n n 和 k i k i ,它在参数 p p 取不同值时保持不变,因此在最大化似然函数时可以忽略它,仅考虑:
L ( p ) ∝ m ∏ i = 1 p k i ( 1 − p ) n − k i L ( p ) ∝ ∏ i = 1 m p k i ( 1 − p ) n − k i
为了简化计算,我们通常对似然函数取对数,得到对数似然函数(Log-Likelihood Function):
ℓ ( p ) = m ∑ i = 1 ( k i log p + ( n − k i ) log ( 1 − p ) ) ℓ ( p ) = ∑ i = 1 m ( k i log p + ( n − k i ) log ( 1 − p ) )
4.2 计算导数并求解最大值
为了找到最大似然估计 ^ p p ^ ,我们需要对 ℓ ( p ) ℓ ( p ) 求导,并令其等于零:
d d p ℓ ( p ) = m ∑ i = 1 ( k i p − n − k i 1 − p ) = 0 d d p ℓ ( p ) = ∑ i = 1 m ( k i p − n − k i 1 − p ) = 0
整理得:
m ∑ i = 1 k i p = m ∑ i = 1 n − k i 1 − p ∑ i = 1 m k i p = ∑ i = 1 m n − k i 1 − p
将求和符号展开:
∑ m i = 1 k i p = m n − ∑ m i = 1 k i 1 − p ∑ i = 1 m k i p = m n − ∑ i = 1 m k i 1 − p
令 S = ∑ m i = 1 k i S = ∑ i = 1 m k i 表示所有样本中成功次数的总和,则方程变为:
S p = m n − S 1 − p S p = m n − S 1 − p
交叉相乘:
S ( 1 − p ) = ( m n − S ) p S ( 1 − p ) = ( m n − S ) p
展开并整理:
S − S p = m n p − S p S − S p = m n p − S p
S = m n p S = m n p
^ p = S m n p ^ = S m n
4.3 二阶导数验证极大值
为了验证 ^ p p ^ 确实是极大值,我们计算二阶导数:
d 2 d p 2 ℓ ( p ) = m ∑ i = 1 ( − k i p 2 − n − k i ( 1 − p ) 2 ) d 2 d p 2 ℓ ( p ) = ∑ i = 1 m ( − k i p 2 − n − k i ( 1 − p ) 2 )
由于 p p 在 ( 0 , 1 ) ( 0 , 1 ) 之间,上述二阶导数恒为负,因此 ℓ ( p ) ℓ ( p ) 在 p = ^ p p = p ^ 处为极大值,即最大似然估计值。
4.4 结论与解释
二项分布的最大似然估计(MLE)为:
^ p = ∑ m i = 1 X i m n p ^ = ∑ i = 1 m X i m n
即,MLE 估计值等于所有观测数据中成功次数的总和 S S 除以所有试验的总数 m n m n 。这表明,二项分布的最大似然估计值就是样本中成功的相对频率。最大似然估计的直觉是:我们希望找到一个 p p 使得观察到的数据最有可能发生。而观察到的样本成功率 S / ( m n ) S / ( m n ) 就是对 p p 的最佳估计,因为它直接反映了数据中的成功比例。
总结
如果总体X X 为离散型
假设分布率为P = p ( x ; θ ) P = p ( x ; θ ) ,x x 是发生的样本,θ θ 是待估计的参数,p ( x ; θ ) p ( x ; θ ) 表示估计参数为θ θ 时,发生x x 的概率。那么当我们的样本值为:x 1 , x 2 , . . . , x n x 1 , x 2 , . . . , x n 时,
L ( θ ) = L ( x 1 , x 2 , . . . , x n ; θ ) = n ∏ i = 1 p ( x i ; θ ) L ( θ ) = L ( x 1 , x 2 , . . . , x n ; θ ) = ∏ i = 1 n p ( x i ; θ )
其中L ( θ ) L ( θ ) 成为样本的似然函数。
假设
L ( x 1 , x 2 , . . . , x n ; ^ θ ) = m a x θ ∈ Θ L ( x 1 , x 2 , . . . , x n ; θ ) L ( x 1 , x 2 , . . . , x n ; θ ^ ) = m a x θ ∈ Θ L ( x 1 , x 2 , . . . , x n ; θ )
有^ θ θ ^ 使得L ( θ ) L ( θ ) 的取值最大,那么^ θ θ ^ 就叫做参数θ θ 的极大似然估计值。
如果总体X X 为连续型
和上面类似,只是概率密度为f ( x ; θ ) f ( x ; θ ) ,替代p p 。
解法
1)构造似然函数L ( θ ) L ( θ )
2)取对数:l n L ( θ ) l n L ( θ )
3) 求导,计算极值
4)解方程,得到θ θ
极大似然估计就是在只有概率的情况下,忽略低概率事件直接将高概率事件认为是真实事件的思想。
参考文献
搞懂极大似然估计
最大似然估计
参数估计(二).最大似然估计
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了