tensor的维度扩张的手段--Broadcasting
broadcasting是tensorflow中tensor维度扩张的最常用的手段,指对某一个维度上重复N多次,虽然它呈现数据已被扩张,但不会复制数据。
可以这样理解,对 [b,784]@[784,10]+[10]这样一个操作([10]可以理解为偏置项),那么原式可以化为[b,10]+[10],但是[b,10]和[10]这两个tensor是不能直接相加的,两者必须化为相一致维度的单元才能相加,即,把[10]扩张为[b,10],两者才能相加,而broadcasting做的就是这样一件事。
如果上面的说法仍然不好理解,我们再换一个说法,对于两个tensor,tensor1:[4,16,16,32](4维)和tensor2:[32](1维),我们将两个不同维度的张量右对齐即4-null,16-null,16-null,32-32,然后从右往前,即从小维度往大维度延伸,如果tensor2在相应的维度上没有维度,我们就插入一个维度,即,从[32]变为[1,1,1,32],然后把插入的维度扩张成相同的size,即把[1,1,1,32]扩张为[4,16,16,32]
又如,对tensor[4,32,32,3],要给它加一个偏置项b:[3],那么这个b的扩张过程为[3]→[1,1,1,3]→[4,32,32,3]
又如,现有两个tensor,tensor1:[4,1],tensor2:[1,3],两个tensor相加,则变化为,[4,1]→[4,3],[1,3]→[4,3]
又如,现有两个tensor,tensor1:[4],tensor2:[1,3],两个tensor不能相加,因为我们扩张时遵循的是右对齐原则,即[4]将要变成[1,4],而[1,4]和[1,3]是不能相加的
那么broadcasting有什么实际意义呢?
举个实际例子,对于[classes,students,scores]这样一个tensor概念(前文已经提过),由于期末考试某科难度提高,我们需要提高它的基准分,因此我们构建一个偏置项[scores],让它与前者相加,这时候通过broadcasting我们就可以让高维元素普适我们的[scores]操作(因为单纯的[scores]是没有学生和班级这样的概念的,通过broadcasting可以看成是对这种概念的补充),即,给所有班级的所有学生的成绩都加上这样的一个偏置。
开头我们提到broadcasting可以实现数据的维度扩张但不会复制数据,意思是,对于[b,10]+[10]这样一个操作,虽然经过broadcasting我们将[10]理解为了一个[b,10](扩张),但其实际的数据shape仍然是[10],如果不使用broadcasting而是用我们前面提到过的维度变换的方法,过程是这个样子的:首先使用expand方法在axis=0的地方插入一个维度使其变为[1,10],然后使用tf.tile方法对[1,10]复制b次,使其变为[b,10],经过这样一个数据变换后,原来的偏置就真的变成了shape为[b,10]的tensor。对比之下可以看到,如果不指定高维度的配置,只给定低维度的概念那么broadcasting默认会进行高维的适配和扩张,而且broadcasting使用更加的简洁,同时可以节省大量的存储空间(因为并没有复制数据)。
使用方法只需要调用tf.broadcast_to函数即可,代码很简单,不再给出。