程序编译与代码优化 -- 早期(编译期)优化

1. 概述

Java编译器可能是指一个前端编译器(其实叫“编译器的前端”更准备一些),把*.java文件转变成*.class文件的过程;也可能是指虚拟机的后端运行期编译器(JIT编译器,Just In Time Compiler)把字节码转变成机器码的过程;还可能是指使用静态提前编译器(AOT编译器,Ahead Of Time Compiler)直接把*.java文件编译成本地机器代码的过程。例如:

  • 前端编译器:Sun的javac,Eclipse JDT中的增量式编译器(ECJ);
  • JIT编译器:HotSpot VM的C1、C2编译器;
  • AOT编译器:GUN Complier for the Java(GCJ),Excelsior JET;

本章我们主要针对javac编译器。

需要注意的是javac这类编译器对代码的运行效率几乎没有任何优化措施。虚拟机设计团队把对性能的优化集中到了后端的即时编译器中,这样可以让那些不是由javac产生的Class文件也同样能享受到编译器优化所带来的好处。

但是javac做了许多针对java语言编码过程的优化措施来改善程序员的编码风格和提高编码效率。相当多新生的Java语法特性,都是靠编译器的“语法糖”来实现,而不是依赖虚拟机的底层改进来支持,可以说,Java中即时编译器在运行期的优化过程对于程序运行来说更重要,而前端编译器在编译期的优化过程对于程序编码来说关系更加密切。

2. Javac编译器

javac编译器本身就是一个由Java语言编写的程序。虽然Java虚拟机规范有专门的一章“Compiling for the Java Virtual Machine”,但都是以举例的形式描述,并没有对如何把Java源码文件转变为Class文件的编译过程进行十分严格的定义,这导致Class文件编译在某种程度上是与具体JDK实现相关的,在一些极端情况,可能出现一段代码javac编译器可以编译,但是ECJ编译器就不可以编译的问题。从Sun Javac的代码来看,编译过程大致可以分为3个过程:

  • 解析与填充符号表过程
  • 插入式注解处理器的注解处理过程
  • 分析与字节码生成过程

2.1 解析与填充符号表

解析步骤包括了经典程序编译原理中的词法分析语法分析两个过程。

2.1.1 词法、语法分析

词法分析是将源代码的字符流转变为标记(Token)集合,每个字符是程序编写过程的最小元素,而标记则是编译过程的最小元素,关键字、变量名、字面量、运算符都可以成为标记。如“int a=b+2”这句代码包含了6个标记,分别是int、a、=、b、+、2,虽然关键字int由3个字符构成,但是它只是一个Token,不可在拆分。

语法分析是根据Token序列构造抽象语法树的过程,抽象语法树(Abstract Syntax Tree,AST)是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的一个语法结构,例如包、类型、修饰符、运算符、接口、返回值甚至代码注释等都可以使一个语法结构。

2.1.2 填充符号表

完成了语法分析和词法分析之后,下一步就是填充符号表的过程。

符号表(Symbol Table)是由一组符号地址和符号信息构成的表格。

2.2 注解处理器

2.3 语义分析与字节码生成

语法分析之后,编译器获得了程序代码的抽象语法树表示,语法树能表示一个结构正确的源程序的抽象,但无法保证源程序是符合逻辑的。而语义分析的主要任务是对结构上正确的源程序进行上下文有关性质的审查。

javac的编译过程中,语义分析过程分为标注检查和数据及控制流分析。

2.3.1 标注检查

标注检查步骤检查的内容包括诸如变量使用前是否被声明、变量与赋值之间的数据类型是否能够匹配等。

2.3.2 数据及控制流分析

数据及控制流分析是对程序上下文逻辑更进一步的验证,它可以检查出诸如程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理了等问题。

2.3.3 解语法糖

语法糖(Syntactic Sugar),也称糖衣语法,指在计算机语言中添加的某种语法,这种语法对语言的功能并没有影响,但是更方便程序员使用。通常来说,使用语法糖能够增加程序的可读性,从而减少程序代码出错的机会。

Java中最常用的语法糖主要是泛型、变长参数、自动装箱/拆箱等,虚拟机运行时不支持这些语法,它们在编译阶段还原回简单的基础语法结构,这个过程称为解语法糖。

2.3.4 字节码生成

字节码生成是javac编译过程的最后一个阶段,字节码生成阶段不仅仅是把前面各个步骤锁生成的信息(语法树、符号表)转换成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作。

3. Java语法糖

几乎各种语言或多或少都提供过一些语法糖来方便程序员的代码开发,这些语法糖虽然不会提供实质性的功能改进,但是它们或能提高效率,或能提升语法的严谨性,或能减少编码出错的机会。不过也有一种观点认为语法糖不一定都是有益的,大量添加和使用“含糖”的语法,容易让程序员产生依赖,无法看清语法糖的糖衣背后,程序代码的真实面目。

总而言之,语法糖可以看做是编译期实现的一些“小把戏”,这些“小把戏”可能会使得效率“大提升”,但我们也应该去了解这些“小把戏”背后的真实世界,那样才能利用好它们,而不是被它们所迷惑。

3.1 泛型与类型擦除

泛型的本质是参数化类型(Parametersized Type)的应用,也就是说所操作的数据类型被指定为一个参数。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。

Java只在程序源码中存在,在编译后的字节码文件中就已经替换为原来的原生类型(Raw Type,也称为裸类型)了,并且在相应的地方插入了强制转型代码,因此,对于运行期的Java语言来说,ArrayList<int>与ArrayList<String>就是同一个类,所以泛型技术实际上是Java语言的一颗语法糖,Java语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型称为伪泛型。

另外,从Signature属性的出现还可以得出结果,擦除法所谓的擦除,仅仅是对方法的Code属性中的字节码进行擦除,实际上元数据中还是保留了泛型信息,这也是我们能通过反射手段取得参数化类型的根本依据。

3.2 自动装箱、拆箱与遍历循环

直接看个实例:自动装箱、拆箱与遍历循环

一共包含了泛型、自动装箱、自动拆箱、遍历循环与变成参数5中语法糖。

package org.github.lujiango.javac;

import java.util.Arrays;
import java.util.List;

public class Test {

    public static void main(String[] args) {
        List<Integer> list = Arrays.asList(1,2,3,4);
        int sum = 0;
        for (int i : list) {
            sum += i;
        }
        System.out.println(sum);
    }

}  

自动装箱、拆箱与遍历循环编译之后:

package org.github.lujiango.javac;

import java.io.PrintStream;
import java.util.Arrays;
import java.util.Iterator;
import java.util.List;

public class Test
{
  public static void main(String[] args)
  {
    List list = Arrays.asList(new Integer[] { Integer.valueOf(1), Integer.valueOf(2), Integer.valueOf(3), Integer.valueOf(4) });
    int sum = 0;
    for (Iterator localIterator = list.iterator(); localIterator.hasNext(); ) { int i = ((Integer)localIterator.next()).intValue();
      sum += i;
    }
    System.out.println(sum);
  }
}  

自动装箱、拆箱在编译之后被转换成了对应的包装和还原方法(Integer.valueOf(),Integer.intValue()),而遍历循环则把代码还原成立了迭代器的实现,这也是为何遍历循环需要被遍历的类实现Iterable接口的原因,变长参数在调用的时候变长了一个数组类型的参数。

3.3 条件编译

Java语言中条件编译的实现也是Java语言的一颗语法糖,根据布尔常量值的真假编译器将会把分支中不成立的代码块消除掉,这一工作将在编译器解除语法糖阶段完成。

3.4 总结

除了泛型,自动装箱,自动拆箱,遍历循环,变长参数和条件编译之外,Java语言还有不少其他的语法糖,如内部类,枚举类,断言语句,对枚举和字符串的switch支持,try语句中定义和关闭资源等。

可以通过跟踪javac源码,反编译Class文件等方式了解它们的本质实现。

4. 总结

从编译器层面上了解了Java源代码编译为字节码的过程,分析了Java语言中泛型,主动装箱/拆箱,条件编译等多种语法糖的前因后果。

在前端编译器中,优化手段主要用于提升程序的编码效率,之所以把javac这类将Java代码转变为字节码的编译器承做“前端编译器”,是因为它只完成了从程序到抽象语法树或中间字节码的生成,而在此之后,还有一组内置于虚拟机内部的“后端编译器”完成了从字节码生成本地机器码的过程,即前面提到的即时编译器或JIT编译器,这个编译器的编译速度及编译结果的优劣,是衡量虚拟机性能一个很重要的指标。

posted @ 2018-06-08 11:45  小路不懂2  阅读(733)  评论(0编辑  收藏  举报