径向基神经网络可以用来逼近非线性函数\(F(x)\),我们设\(F(x)=\theta^{T}S(x)+\delta(x)\)。其中,\(\theta^{T}\)为权重向量,\(S(x)\)为径向基函数。\(\delta(x)\)为估计误差。
选取代价函数为

\[ J(\theta)=\frac{1}{2}(F-\theta^{T}S(x))^{2} \]

我们假设代价函数\(J(\theta)\)有一个最优的值\(\theta^{*}\),这个最优值使得代价函数在\(\Omega_{x}\)上的值最小。
\begin{equation}
\theta^{*}=arg\min_{\theta\in \mathcal{R}^{N}}{\sup_{x\in \Omega_{x} }|F-\theta^{T}S(x)|}
\end{equation}
其中,\(\Omega_{x}\)是一个紧集。下一步,我们设计权重向量的自适应律使得\(\theta\rightarrow \theta^{*}\)。可以归结为如下的最小化问题:
\begin{equation}
\min_{\theta\in \mathcal{R}^{N}} J(\theta)
\end{equation}
接着我们考虑损失函数\(J(\theta)\)的Hessian矩阵

\[\frac{\partial^{2}J(\theta)}{\partial\theta^{2}}= \begin{gathered} \begin{bmatrix} \frac{\partial^{2}J}{\partial\theta_{1}^{2}} & \frac{\partial^{2}J}{\partial\theta_{1}\partial\theta_{2}}& \cdots& \frac{\partial^{2}J}{\partial\theta_{1}\partial\theta_{N}} \\ \frac{\partial^{2}J}{\partial\theta_{2}\partial\theta_{1}} & \frac{\partial^{2}J}{\partial\theta_{2}^{2}} &\cdots& \frac{\partial^{2}J}{\partial\theta_{2}\partial\theta_{N}} \\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial^{2}J}{\partial\theta_{N}\partial\theta_{1}} & \frac{\partial^{N}J}{\partial\theta_{2}^{2}} &\cdots& \frac{\partial^{2}J}{\partial\theta_{N}^{2}} \end{bmatrix} \end{gathered} =S(x)S(x)\geq 0 \]

由上式可知,损失函数\(J(\theta)\)是关于\(\theta\)的的凸函数。使用一阶凸函数的性质,我们可以得到
\begin{equation}
(\theta-\theta^{*})\frac{\partial{J}\theta}{\partial\theta}\geq 0
\end{equation}
选取李雅普诺夫函数\(V=0.5(\theta-\theta^{*})^{T}(\theta-\theta^{*})\),对其求时间导数可得

\[\dot{V}=(\theta-\theta^{*})^{T}\dot{\theta}\leq 0 \]

通过上述例子可以设计自适应参数为

\[ \dot{\theta}=\eta\frac{\partial{J}(\theta)}{\partial\theta} \]

其中\(\eta\)为设计参数。那么可以得到

\[ \dot{V}=(\theta-\theta^{*})^{T}\eta\frac{\partial{J}(\theta)}{\partial\theta} \]

在自适应律\(\dot{\theta}\)的作用下,\(\theta\)会收敛到一个不变集\(T=\{ \theta| \dot{V}(\theta)=0 \}\)。这里只能说明是局部最优,并不能证明全局最优。