使用拓扑数据分析理解卷积神经网络模型的工作过程
1.简介
神经网络在各种数据方面处理上已经取得了很大的成功,包括图像、文本、时间序列等。然而,学术界或工业界都面临的一个问题是,不能以任何细节来理解其工作的过程,只能通过实验来检测其效果,而无法做出合理的解释。相关问题是对特定数据集经常存在某种过拟合现象,这会导致对抗行为的可能性。出于这些原因,开发用于发展对神经网络的内部状态的一些理解的方法是非常值得尝试的。由于网络中神经元的数量非常庞大,这成为使得对其进行数据分析显得比较困难,尤其是对于无监督数据分析。
在这篇文章中,将讨论如何使用拓扑数据分析来深入了解卷积神经网络(CNN)的工作过程。本文所举示例完全来自对图像数据集进行训练的网络,但我们确信拓扑建模可以很容易地解释许多其他领域卷积网络的工作过程。
首先,对于神经网络而言,一般是由节点和有向边组成。一些节点被指定为输入节点,其他节点被指定为输出节点,其余节点被指定为内部节点。输入节点是数据集的特征。例如,在处理图像时,输入节点将是特定图像格式的像素。在文本分析时,它又可能是单词。假设给定一个数据集和一个分类问题,比如手写数字MNIST数据集,试图将每个图像分类为数字0到9中的某一个数字。网络的每个节点对应于一个变量值(激活值)。因此,每个数据点为神经网络中的每个内部和输出节点生成值。网络每个节点的值由分配给每个边的权重系统决定。节点节点Z上的值由与之连接的节点A,B,C,D节点的激活函数来确定。
图1 神经网络节点示例
基于分配给四条边的的权重值,计算最右边节点Z的激活值。一种可能的函数形式就是
其中wA,wB,wC和wD是与边缘AZ,BZ,CZ和DZ的权重值,xA,xB,xC和xD分别是节点A,B,C和D处的激活值,取值范围通常在0和1之间,并且通常是单调的。权重的选择是通过输出函数来进行优化的,给定输入的特定输出函数(代价函数或损失函数),然后使用优化过程来选择所有权重,以便最佳地适合给定的输出函数,对这方面感兴趣的读者可以查阅梯度下降算法和反向传播算法相关资料。