闭包解析(Fun with closure)

我发现英文标题真的非常不给力。

这篇随笔是对“闭包”这个东西的简单介绍。为了轻松一些,用了Fun with closure这个标题。

有点儿像闭包的东西

我先找了几个有点儿像闭包的东西。摆出来看看。第一个东西是C++的Functor:

 1 struct add_x {
 2     add_x(int x) : m_x(x) { }
 3     int operator() (int y) { return m_x + y; }
 4  
 5 private:
 6     int m_x;
 7 };
 8 
 9 int value = 1;
10 
11 std::transform(input, input + size, result, add_x(value));

这段代码期望将 input 集合中的每一个元素使用 add_x 映射到 result 集合中。这里,add_x是一个 functor。为了将在函数栈空间上定义的变量value引入到functor中来,我们必须采用成员变量的方式对其进行复制(或者引用)。这样一来,好像在栈上定义的值value被带到了另外一个上下文中一样。

我们再来看看一段 C# 的代码:

 1 IEnumerable<int> Transform(
 2     IEnumerable<int> input,
 3     Func<int, int, int> transformer, 
 4     int factor) {
 5     foreach (int value in input) {
 6         yield return transformer(value, factor);
 7     }
 8 }
 9  
10 int Add(int x, int y) { return x + y; }
11  
12 void Main() {
13   int[] array = { 1, 2, 3, 4, 5 };
14   int factor = 1;
15   Transform(array, Add, factor).Dump();
16 }

这段代码同样也是在一个集合上应用 Add 方法。为了将在 Main 函数中定义的变量 factor 引入到Add方法中,我们将factor变量作为参数传入了Transform函数中,进而传入了transformer委托中。

做一个闭包

上面两段代码都像是“闭包”但是他们不是。我们接下来要做一个“真的”闭包,用C#吧,虽然我很想用Javascript。

第一件事情就是将“函数”看作 first-class data,或者称之为first-class function。什么是 first-class function呢?请看维基(http://en.wikipedia.org/wiki/First-class_function),如果你不喜英文我简要解释:first-class function意味着在语言中,函数可以被用作参数传递到其他的函数中;函数可以当作返回值被其他函数返回;函数可以作为数据存储在其他数据结构中。好的我们现在就把函数看作 first-class function:

1 Func<string, string, bool> predicator = delegate(string value, string part) {
2   return value.Contains(part);
3 };

当然我们还可以将其写为 lambda 表达式:

1 Func<string, string, bool> predicator = (value, part) => value.Contains(part);

现在,如果我们希望知道一个字符串是否包含了 “jumps”这个字符串的时候,我们可以用如下的代码:

string data = "A quick brown fox jumps over a lazy dog.";
predicator(data, "jumps")

但是我们不太喜欢“jumps”这个参数,我们从参数表中解放他,于是我们把他挪到了外面作为一个变量,而在函数数据体中直接使用这个变量。

1 string partVariable = "jumps";
2 Func<string, bool> predicator = (value) => value.Contains(partVariable);
3 string data = "A quick brown fox jumps over a lazy dog.";
4 predicator(data).Dump();

现在你得到了闭包!恭喜。

什么是闭包?

那么什么是闭包呢?这里有两个定义。我们先来看睡觉前专用的定义:在计算机科学中(而不是数学中),一个闭包是一个函数或者一个函数的引用,以及他们所引用的环境信息(就像是一个表,这个表存储了这个函数中引用的每一个没有在函数内声明的变量)。

也就是闭包总是要有两个部分的,一部分是一个函数,另一个部分是被这个函数“带走”的,但是却不是在这个函数中声明的变量表(称之为 free variables 或者 outer variables)。

还有一个不是那么呆的定义:闭包允许你封装一些行为(函数就是行为),像其他对象一样将它传来传去(函数是first-class function),但是不论怎样,它仍然保持着对原来最初上下文的访问能力(它还能访问到 outer variables)。

很神奇,那么他是怎么实现的呢?

我们以C#为例,但是其他语言的实现方式大同小异。这里可能C++的实现需要注意问题最多,我们会单独的说明。C#代码来也:

1 string key = "u";
2 var result = words.Where(word => word.Contains(key));

这是一段非常简单的代码,你可以编译,然后用反编译器反向一下就会看到编译器帮你做的事情,我把这些事情用以下的图表示:

编译器为我们做了两件事情:

(1)刚才提到闭包有两个要素,一个是函数,另一个是函数引用的外部变量。OK,这里函数就是 word => word.Contains(key),而外部变量就是 key。编译器将这两个东西封装成了一个类:ClosureHelper。
(2)将原本在函数“栈”上分配的变量 key,替换为了 closureHelper.key。此时,变量就跑到堆上去了。所以即使函数满世界跑,他也总能够访问到最初的那个变量closureHelper.key。

看到了吗?这个变量的生存期实际上延长了!

Closure的“诡异”现象

在了解了实现细节之后。我们可以来探讨一下使用 Closure 可能出现的“诡异”现象。说“诡异”其实只要套用 Closure 的实现细节,他们实际上也很普通。这些诡异现象的成因基本上都是一个:outer-variable在closure中被改变了。

例子1:

假设我们有如下的初始代码:

1 var words = new List<string> {
2     "the", "quick", "brown", "fox", "jump", 
3     "over", "a", "lazy", "dog"
4 };
5  
6 string key = "u";
7 var result = words.Where(word => word.Contains(key));

我们比较容易知道输出是:quick和jump。但是如果这个程序变成:

1 string key = "u";
2 Func<string, bool> predicate = word => word.Contains(key);
3 key = "v";
4 
5 var result = words.Where(predicate);

那么输出又是什么呢?考虑到key实际上是closureHelper.key那么很容易知道在predicate执行的时候,key已经变成了"v",因此输出是:over。还想不明白的打开一个LINQPad试一下就知道了:-)。

例子2:

 1 var actionList = new List<Action>();
 2  
 3 for (int i = 0; i < 5; ++i) {
 4     actionList.Add(
 5         () => Console.WriteLine(i));
 6 }
 7  
 8 foreach (Action action in actionList) {
 9     action();
10 }

如果你面试,也许会碰到这个东西。他的输出是:5 5 5 5 5。这个用语言解释起来不太容易,请看下面的图:

ClosureHelper是在 for 循环体之外创建的,也就是 outer-variable 被 capture 的时候,全局只有一个实例。因此i实际上在第一个循环之后其值是5。这样,在action真正执行的时候只可能输出5。

为了修正这个问题,我们不应当用 i 作为 outer variable 而是应当在循环体内定义 outer-variable:

 1 var actionList = new List<Action>();
 2  
 3 for (int i = 0; i < 5; ++i) {
 4     int outerVariable = i;
 5     actionList.Add(
 6         () => Console.WriteLine(outerVariable));
 7 }
 8  
 9 foreach (Action action in actionList) {
10     action();
11 
12 }

这样,执行过程就变成了:

输出为期望值:0 1 2 3 4。

事实上,如果是 java,根本不允许第一种写法。属于语法错误。

例子3

不难想到,在closure中改变outer variable同样可以影响到其他上下文中的outer variable引用。例如:

1 int variable = 2;
2  
3 Action action = delegate { variable = 3; };
4 action();

执行之后,variable 的值是3。

你看到了,在closure中改变outer varaible的值还是不要做为好。实际上,不更改 closure 中 outer variable 的值有额外的好处:

(1)避免过度用脑导致的脱发;
(2)这类代码更容易移植到函数式语言,例如 F# 等。因为在这些语言中 immutable 是一个基本的规则。

关于函数式语言的一些范式已经超出了本文的范围,我建议大家看看以下的博客:

(1)http://diditwith.net/default.aspx
(2)http://blogs.msdn.com/b/dsyme/

C++ 的细节

方才提到了,由于闭包使得被 capture 的变量的生存期实际上延长了!这种处理方式对于C#,Java,F#等托管环境下的语言来说是没有什么问题的。但是C++(Native,对不起我真的讨厌用 C++ CLI 写程序)没有垃圾收集器。编译器怎么处理?难道也会延长生存期?答案是,不会。你需要自己搞定这些,否则没准儿就会出现 Access Violation。

那么我怎么搞定呢?答案是控制 Capture Style。也就是向编译器说明,我如何引用 outer variable。我们先看看 C++ 中如何构造闭包吧。

C++中的闭包声明可以用 lambda表达式来做,其包含三个部分:

(1)Capture Method,也就是我们关注的capture style;
(2)Parameter List,即参数表,和普通的 C/C++ 函数一样;
(3)Expression Body:即函数的主体,和普通的 C/C++ 函数一样;

第(2)和第(3)点都不用多说。关键是第一点。第一点要想说清楚真的要说不少废话,不如列表来的清晰,这个列表来源于 http://www.cprogramming.com/c++11/c++11-lambda-closures.html

[] 什么都不捕获
[&] 按照引用捕获所有的outer variables
[=] 通过复制(按值)捕获所有的outer variables
[=, &foo] 通过复制捕获所有的outer variables,但是对于 foo 这个变量,用引用捕获
[bar] 通过复制捕获bar这个变量,其他的变量都不要复制;
[this] 通过复制的方式捕获当前上下文中的this指针;

这种Capture方法的指定直接影响到了编译器生成的Helper类型的成员变量的声明形式(声明为值还是引用)进而影响程序的逻辑。Helper类型将在Capture时生成,届时将根据Capture的类型进行复制或者引用。举一个例子。

1 {
2     outer_variable v; // [1]
3  
4     std::function<void(void)> lambda = [=] () { v.do_something(); }; // [2]
5     lambda(); // [3]
6 }

在【1】处,outer_variable创建了一个实例,outer_variable 的默认构造函数被调用。假设我们记这个实例为 v。

在【2】处比较繁:
首先,一个 closure 实例被创建,并且 v 以 value 的形式进行 capture 被 closure 实例使用,因而 outer_variable 的复制构造函数被调用。我们记这个 outer_variable 的实例为 v'。
其次,触发 std::function::ctor(const T&),其内部会为类型T(目前这里是一个匿名的 closure 类型)进行复制构造,于是,v' 作为其中的一个按值引用的成员变量也被复制构造,因此 outer_variable 的复制构造函数被调用。我们记这个 outer_variable 的实例为 v''。

【2】完毕之后,rvalue 的 closure 实例被析构,使得 v' 被析构。

【3】实际上调用的是 v'' 的 do_something 方法;

是不是很烦?当然,在按值 capture 的方式下,显然无法更改 outer varaible 的值。

按引用 capture 显然不需要频繁的复制构造 outer varaible 实例。并且,你可以在 closure 中更改 outer variable 的值以影响最初上下文中的变量。但是需要特别注意变量的生存期。

std::function<void(void)> func;
 
{
    outer_variable v; // [1]
    func = [&] () { v.do_something(); }; // [2]
} // [3]
 
func(); // undefined behavior.

【1】outer_variable 默认构造函数调用,创建实例 v。
【2】closure helper 实例构造,按引用 capture 到 v,由于是按引用因此没有复制构造函数调用,closure helper 实例使用 std::function 的构造函数初始化 std::function 对象。rvalue closure 实例析构。
【3】由于超出了作用域,v析构。此时 func 对象的 closure helper 实例 capture 到的 v 的引用已然不存在了。

此时调用 func 会造成未定义行为。具体的参见 C++ Spec:

5.1.2 Lambda expressions [expr.prim.lambda]

22 - [ Note: If an entity is implicitly or explicitly captured by reference, invoking the function call operator of the corresponding lambda-expression after the lifetime of the entity has ended is likely to result in undefined behavior. —end note ]

结尾

好了,写完了。希望到此你已经对 closure 有了一个了解,知道了编译器是怎么处理他的。也知道了使用 closure 的一些坑。如果你发现本文有什么地方不妥,就狠狠的砸过来把,欢迎讨论:-)。

posted @ 2012-11-23 22:54  TW-刘夏  阅读(6204)  评论(7编辑  收藏  举报