线性估计
设信号模型为\(x(t)=a+bt+N(t)\),其中\(a,b\)为待估计参数,\(N(t)\)表示噪声。我们首先需要对上述信号进行采样,设采样间隔为\(\Delta t\),则第\(k\)个采样点可以表示为\(x_k=a+b k\Delta t+N_k\),现在需要利用采样点对\(a,b\)进行估计。定义如下性能指标:
(1)表示所有采样点与信号模型之间的垂直距离的平方和最小。为描述简便,我们将上述问题用矩阵形式表示出来,为此定义:\(\boldsymbol{x}=[x_1,...,x_n]^{\rm T}\)表示采样序列,\(\boldsymbol{\theta}=[a,b]^{\rm T}\)表示待估计参数,\(\boldsymbol{H}=\begin{bmatrix}1,\Delta t\\ \vdots ,\vdots\\ 1,n\Delta t\end{bmatrix}\)表示系数矩阵,\(\boldsymbol{N}=[N_1,...,N_n]^{\rm T}\)表示噪声向量,则信号模型和性能指标可以表示为
显然,为求\(\boldsymbol{\theta}\),一个直观的思路是对\(g(\boldsymbol{\theta})\)求梯度,为此,先对\(g(\boldsymbol{\theta})\)展开整理:
因此
在上面的求导过程中,可以应用一些现有的求导公式:\(\nabla_{\boldsymbol{\theta}}(\boldsymbol{A \theta})=\boldsymbol{A}^{\rm T}\),\(\nabla_{\boldsymbol{\theta}}(\boldsymbol{\theta^{\rm T} A})=\boldsymbol{A}\),\(\nabla_{\boldsymbol{\theta}}(\boldsymbol{\theta^{\rm T} A \boldsymbol{\theta}})=(\boldsymbol{A}^{\rm T}+\boldsymbol{A})\boldsymbol{\theta}\)。
在(4)中,令\(\nabla_{\boldsymbol{\theta}}g(\boldsymbol{\theta})=0\)可以得到\(\boldsymbol{\theta}=(\boldsymbol{H}^{\rm T}\boldsymbol{H})^{-1}\boldsymbol{H}^{\rm T}\boldsymbol{x}\)。该结果称为最小二乘解。
上面从线性拟合的角度求出了线性模型中的参数,整个过程中并没有考虑到噪声的分布,相当于忽略了噪声的影响。下面从统计的角度来重新求一下上述线性模型中的参数。设\(N_k \backsim N(0,\sigma^2)\),则要求\(\boldsymbol{\theta}\)的最优估计,可从CRLB入手,因此进行如下操作:
(1) 列出所有采样样本\(\boldsymbol{x}=[x_1,...,x_n]^{\rm T}\)的联合概率密度函数:
(2) 对上述联合概率密度求对数:
(3) 对对数联合概率密度函数求梯度:
到这边其实已经没有必要继续往下算了,从(7)式就可以得到待估参数\(\boldsymbol{\theta}\)对应的Fisher矩阵\(\boldsymbol{I}(\boldsymbol{\theta})=\frac{\boldsymbol{H}^{\rm T}\boldsymbol{H}}{\sigma^2}\),而最优估计量为\(\hat{\boldsymbol{\theta}}=\boldsymbol{H}^{\rm T}\boldsymbol{H})^{-1}\boldsymbol{H}^{\rm T}\boldsymbol{x}\),显然与上面前面从线性拟合角度得到的结果是一致的。
从上面的分析可以知道,最小二乘估计结果是线性估计中的最优结果(此时不管噪声的具体分布),同时也是高斯噪声下任意估计(不局限于线性估计)中的最优结果(因为此时最小二乘结果达到了CRLB下界)。
接下来进一步考虑线性估计问题,设此时信号模型为\(x_k=bs_k+N_k\),其中\(b\)为待估参数。\(s_k\)在不同系统中可能具有不同的含义,比如在雷达系统中可能表示波形、在通信系统中可能表示码元。我们希望从采样序列\(\boldsymbol{x}=[x_1,...,x_n]^{\rm T}\)中估计出\(b\),且这个估计值来源与采样序列的线性组合,即\(\hat{\theta}(\boldsymbol{x})=\sum_{k=1}^n{\alpha_k x_k}=\boldsymbol{\alpha}^{\rm T}\boldsymbol{x}\),同时我们要求这个估计是无偏的,所以\({\rm E}[\hat{\theta}(\boldsymbol{x})]=\boldsymbol{\alpha}^{\rm T}{\rm E}[\boldsymbol{x}]=b\)。据此,我们得到我们的估计问题如下:
对上面的式子进行整理:
(9)中含有待估参数\(b\),这显然是我们不希望的,因此要想办法将(9)中的\(b\)去掉。此时可以利用(8)中约束条件,将其代入目标函数,可以得到:
而\({\rm E}[\boldsymbol{x}]-\boldsymbol{x})({\rm E}[\boldsymbol{x}]-\boldsymbol{x})^{\rm T}=\boldsymbol{N}\boldsymbol{N}^{\rm T}\),所以\({\rm Cov}(\boldsymbol{x})={\rm E}[\boldsymbol{N}\boldsymbol{N}^{\rm T}]=\boldsymbol{C}_N\),此外进一步对(8)中的约束条件进行整理(目的是消除待估参数\(b\)),可以得到\(\boldsymbol{\alpha}^{\rm T}{\rm E}[\boldsymbol{x}]=b=\boldsymbol{\alpha}^{\rm T}b\boldsymbol{s} \rightarrow \boldsymbol{\alpha}^{\rm T}\boldsymbol{s}=1\),所以经过上面的化简(8)中的约束最优化问题转化为:
对于约束最优化问题,通常可以采用拉格朗日乘子法,为此构造下述目标函数:
所以
令\(\nabla_{\boldsymbol{\alpha}}L(\boldsymbol{\alpha},\lambda)=0 \rightarrow \boldsymbol{\alpha}=\lambda\boldsymbol{C}_N^{-1}\boldsymbol{s}\),所以\(\boldsymbol{\alpha}^{\rm T}=\lambda \boldsymbol{s}^{\rm T}\boldsymbol{C}_N^{-1}\),所以\(\boldsymbol{\alpha}^{\rm T}\boldsymbol{s}=\lambda \boldsymbol{s}^{\rm T}\boldsymbol{C}_N^{-1}\boldsymbol{s}=1\),所以\(\lambda=\frac{1}{\boldsymbol{s}^{\rm T}\boldsymbol{C}_N^{-1}\boldsymbol{s}}\),所以\(\boldsymbol{\alpha}=\frac{\boldsymbol{C}_N^{-1}\boldsymbol{s}}{\boldsymbol{s}^{\rm T}\boldsymbol{C}_N^{-1}\boldsymbol{s}}\),所以估计结果可以表示为\(\hat{\theta}(\boldsymbol{x})=\boldsymbol{\alpha}^{\rm T}\boldsymbol{x}=\frac{\boldsymbol{s}^{\rm T}\boldsymbol{C}_N^{-1}}{\boldsymbol{s}^{\rm T}\boldsymbol{C}_N^{-1}\boldsymbol{s}}\boldsymbol{x}\)。该结果即为最优线性无偏估计。
需要注意该结果与最小方差无偏估计(MVUE)的差别,MVUE需要知道信号的详细分布,然后利用分布算CRLB,再寻求最优估计,它对任何估计(不局限于线性估计)都是最优的。而上面的最优线性无偏估计(BLUE)则不要求信号的具体分布,不过它只在线性估计范围内寻找最优估计结果。所以两者的前提和适用范围都是不一样的。