深度学习框之 静态图&动态图
深度学习框之 静态图&动态图
各位炼丹者应该都会有自己常用的一种或几种深度学习框架,如 MxNet、Caffe、Tensorflow、Pytorch、PaddlePaddle(百度),甚至是国产新兴框架 MegEngine(旷视)、MindSpore(华为)等,在涉及介绍这些框架的时候,都会提及动态图和静态图这样的概念,那么它们究竟是什么意思呢?在框架中又是如何体现与使用的呢?
计算图
不论是动态图还是静态图,它们都属于计算图。计算图是用来描述运算的有向无环图,它有两个主要元素:结点(Node)和边(Edge)。结点表示数据,如向量、矩阵、张量,而边表示运算,如加减乘除卷积等。
采用计算图来描述运算的好处不仅是让运算流的表达更加简洁清晰,还有一个更重要的原因是:方便求导计算梯度。
上图表示的是 y = (w + x) * (w + 1) 代表的计算图,若要计算y对w的导数,那么结合链式求导法则,就在计算图中反向从y找到所有到w的路径,每条路径上各段的导数相乘就是该路径的偏导,最后再将所有路径获得的偏导求和即可。
叶子节点是用户创建的变量,如上图的x与w,在Pytorch的实现中,为了节省内存,在梯度反向传播结束后,非叶子节点的梯度都会被释放掉。
import torch
w = torch.tensor([1.],requires_grad = True)
x = torch.tensor([2.],requires_grad = True)
a = w+x
b = w+1
y = a*b
y.backward()
print(w.is_leaf,x.is_leaf,a.is_leaf,b.is_leaf,y.is_leaf)
print(w.grad,x.grad,a.grad,b.grad,y.grad)
可以看到只有x和w是叶子节点,然后反向传播计算完梯度后(.backward()之后),只有叶子节点的梯度保存下来了。
当然也可以通过.retain_grad()来保留非任意节点的梯度值。
import torch
w = torch.tensor([1.],requires_grad = True)
x = torch.tensor([2.],requires_grad = True)
a = w+x
a.retain_grad()
b = w+1
y = a*b
y.backward()
print(w.is_leaf,x.is_leaf,a.is_leaf,b.is_leaf,y.is_leaf)
print(w.grad,x.grad,a.grad,b.grad,y.grad)
torch.tensor有一个属性grad_fn,grad_fn的作用是记录创建该张量时所用的函数,这个属性反向传播的时候会用到。例如在上面的例子中,y.grad_fn=MulBackward0,表示y是通过乘法得到的。所以求导的时候就是用乘法的求导法则。同样的,a.grad=AddBackward0表示a是通过加法得到的,使用加法的求导法则。
import torch
w = torch.tensor([1.],requires_grad = True)
x = torch.tensor([2.],requires_grad = True)
a = w+x
a.retain_grad()
b = w+1
y = a*b
y.backward()
print(y.grad_fn)
print(a.grad_fn)
print(w.grad_fn)
叶子节点的.grad_fn是None。
动态图
动态图意味着计算图的构建和计算同时发生(define by run)。这种机制由于能够实时得到中间结果的值,使得调试更加容易,同时我们将大脑中的想法转化为代码方案也变得更加容易,对于编程实现来说更友好。Pytorch使用的就是动态图机制,因此它更易上手,风格更加pythonic,大受科研人员的喜爱。pytorch 支持动态图。tensorflow2 也支持动态图了。
静态图
静态图则意味着计算图的构建和实际计算是分开(define and run)的。在静态图中,会事先了解和定义好整个运算流,这样之后再次运行的时候就不再需要重新构建计算图了(可理解为编译),因此速度会比动态图更快,从性能上来说更加高效,但这也意味着你所期望的程序与编译器实际执行之间存在着更多的代沟,代码中的错误将难以发现,无法像动态图一样随时拿到中间计算结果。Tensorflow默认使用的是静态图机制,这也是其名称的由来,先定义好整个计算流(flow),然后再对数据(tensor)进行计算。
tensorflow1 使用的是静态图机制。
静态图我们是需要先定义好运算规则流程的。比方说,我们先给出
a = x + w, b = w + 1, y = a x b
然后把上面的运算流程存储下来,然后把w=1,x=2放到上面运算框架的入口位置进行运算。而动态图是直接对着已经赋值的w和x进行运算,然后变运算变构建运算图。
在一个课程http://cs231n.stanford.edu/slides/2018/cs231n_2018_lecture08.pdf中的第125页,有这样的一个对比例子:
这个代码是Tensorflow的,构建运算的时候,先构建运算框架,然后再把具体的数字放入其中。整个过程类似于训练神经网络,我们要构建好模型的结构,然后再训练的时候再吧数据放到模型里面去。又类似于在旅游的时候,我们事先定要每天的行程路线,然后每天按照路线去行动。
动态图呢,就是直接对数据进行运算,然后动态的构建出运算图。很符合我们的运算习惯。
两者的区别在于,静态图先说明数据要怎么计算,然后再放入数据。假设要放入50组数据,运算图因为是事先构建的,所以每一次计算梯度都很快、高效;动态图的运算图是在数据计算的同时构建的,假设要放入50组数据,那么就要生成50次运算图。这样就没有那么高效。所以称为动态图。
动态图虽然没有那么高效,但是他的优点有以下:
- 更容易调试。
- 动态计算更适用于自然语言处理。(这个可能是因为自然语言处理的输入往往不定长?)
- 动态图更面向对象编程,我们会感觉更加自然。