人工神经网络是黑箱模型吗?
自从人工神经网络(ANN)在函数逼近、模式识别、建模仿真等领域的应用取得显著成效以来,就一直遭受到一项指控:ANN is one kind of black box models!当然,这项“罪名”成立与否并无定论,但终究影响不好。如今,大部分应用者都认为ANN是黑箱模型。在ANN的捍卫者中,也有一部分人致力于“洗白”ANN,试图告诉大家:ANN是white box model。
本文的目的不是争辩ANN到底是黑箱还是白箱,而是探讨ANN的"黑"所指的涵义(毕竟无风不起浪)。
ANN之所以被称为是黑箱模型,主要的原因如下。
对于某个具体的ANN模型的设计者来说,ANN的内部结构(例如隐含层的层数和每一层的节点数)是由他自己确定的;在确定了内部结构之后,需要通过输入数据进行训练,最后得到一个最佳模型。该模型不同层间的连接权重矩阵显然也是可知的,通过连接权重矩阵可以计算出输出变量对输入变量的依赖关系(一般在两层以上的ANN模型中,输出变量对输入变量的依赖关系都是非线性的)。那怎么说ANN是黑箱模型呢?
正是因为在大部分情况下,输出变量对输入变量的依赖关系都是非线性函数的关系,函数表达式往往很复杂,所以设计者无法直观地看出某个输入变量对输出变量的贡献率是大是小(即贡献率的大小没有一个尺度来衡量),或者更一般地说,无法解释非线性函数在物理世界中的现实意义。更甚者,ANN的规模(隐含层的层数和节点数)增大时,非线性函数的复杂度急剧增大。在这种情况下,即使得到了这个很复杂的关系函数,也如同一堆废铁。所以,有研究者试图采用连接权重的贡献度和相对贡献率等指标[1],来对训练出的权重矩阵进行修剪,剪去冗余的权重。但是这种方法治标不治本,只能应用于一个隐含层的ANN模型,即输出变量对输入变量的依赖关系是线性的;而且面对规模庞大的ANN模型时,计算这些指标所需的时间和空间复杂度急剧上升,吃力不讨好。
值得注意的是,对于应用者来说,ANN的透明化往往是指,连接权重矩阵的可视化。Ozesmi提出的神经网络释义图已经被广泛地用于ANN的可视化。[2]
参考文献:
[1]姚立忠等. "神经网络模型的透明化及输入变量约简". 计算机科学 Vol. 39 No. 09, 2012.09.
[2] Ozesmi et al. "An artificial neural network approach to spatial habitat modeling with interspecific interaction". Ecological Modelling, 1999.