1-1 计算机视觉
计算机视觉( Computer vision)
计算机视觉时要面临一个挑战,就是数据的输入可能会非常大。
假设操作的都是 64×64 的小图片,实际上,它的数据量是 64×64×3,因为每张图片都有 3 个颜色通道。如果计算一下的话,可得知数据量为 12288,所以我们的特征向量维度为 12288。这其实还好,因为 64×64 真的是很小的一张图片。
如果你要操作更大的图片,比如一张 1000×1000 的图片,它足有 1 兆那么大,但是特征向量的维度达到了 1000×1000×3,因为有 3 个 RGB 通道,所以数字将会是 300 万。
如果你要输入 300 万的数据量,这就意味着,特征向量x的维度高达 300 万。所以在第一隐藏层中,你也许会有1000个隐藏单元,而所有的权值组成了矩阵${{\rm{W}}^{[1]}}$。如果你使用了标准的全连接网络,就像我们在第一门和第二门的课程里说的,这个矩阵的大小将会是1000×300 万。因为现在x的维度为3m, 3m通常用来表示 300 万。这意味着矩阵${{\rm{W}}^{[1]}}$会有 30亿个参数,这是个非常巨大的数字。在参数如此大量的情况下,难以获得足够的数据来防止神经网络发生过拟合和竞争需求,要处理包含 30 亿参数的神经网络,巨大的内存需求让人不太能接受。
但对于计算机视觉应用来说,你肯定不想它只处理小图片,你希望它同时也要能处理大图。为此,你需要进行卷积计算,它是卷积神经网络中非常重要的一块。