Java语言的编译期是一段"不确定"的操作过程,因为它可能指的是不同的编译过程:
前端编译器: 把*.java文件转变成*.class文件的过程;
JIT编译器(Just In Time Compiler): 把字节码转变成机器码的过程;
AOT编译器(静态提前编译器 Ahead Of Time Compiler): 直接把*.java文件编译成本地机器代码的过程。
这一节我们重点了解第一类编译器。同时因为Javac这类编译器对代码的运行效率几乎没有任何优化措施(在JDK 1.3之后,Javac的-O优化参数就不再有意义),所以我们将对优化的定义更为宽松。
虚拟机设计团队把对性能的优化集中到了后端的即时编译器中。(这样即便不是Javac产生的Class文件(如JRuby、Groovy等语言的Class文件)也同样能享受到编译器优化。)
但是另一方面Javac做了许多针对编码过程的优化措施来改善程序员的编码风格和提高编码效率。相当多新生的Java语法特性,都是靠编译器的“语法糖”来实现,而不是依赖虚拟机的底层改进来支持。
Javac编译器不像HotSpot虚拟机那样使用C++语言(包含少量C语言)实现,它本身就是一个由Java语言编写的程序,这为纯Java的程序员了解它的编译过程带来了很大的便利。
Javac源码在OpenJDK官网中下载或者通过github,下载好源码后,javac在src\share\classes\sun\tools中。
导入源码后可以运行com.sun.tools.javac.Main的main()方法来执行编译了,与命令行中使用Javac的命令没有什么区别,编译的文件与参数在启动参赛中传入。
虚拟机规范严格定义了Class文件的格式,但是对如何把Java源码文件转变为Class文件的编译过程未作任何定义,所以这部分内容是与具体JDK实现相关的。从Sun Javac的代码来看,编译过程大致可以分为三个过程,分别是:
Javac编译动作的入口是com.sun.tools.javac.main.JavaCompiler
类,上述三个过程的代码逻辑集中在这个类的compile()和compile2()方法中。
词法、语法分析
词法分析是将源代码的字符流转变为标记(Token)集合,单个字符是程序编写过程的最小元素,而标记则是编译过程的最小元素,关键字、变量名、字面量和运算符都可以成为标记,如“int a=b+2”这句代码包含了6个标记,分别是int、a、=、b、+、2,虽然关键字int由三个字符构成,但是它只是一个Token,不可再拆分。在Javac的源码中,词法分析过程由com.sun.tools.javac.parser.Scanner
类来实现。
语法分析是根据Token序列来构造抽象语法树的过程,抽象语法树(AST, Abstract Syntax Tree)是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的一个语法结构(Construct),例如包、类型、修饰符、运算符、接口、返回值甚至连代码注释等都可以是一个语法结构。
在Javac的源码中,语法分析过程由com.sun.tools.javac.parser.Parser
类来实现,这个阶段产出的抽象语法树由com.sun.tools.javac.tree.JCTree
类来表示,经过这个步骤之后,编译器就基本不会再对源码文件进行操作了,后续的操作都建立在抽象语法树之上。
填充符号表
此操作在enterTrees()方法方法中。符号表(Symbol Table)是由一组符号地址和符号信息构成的表格,可以类比哈希表中K-V值对的形式(实际上符号表不一定是哈希表实现,可以是有序符号表、树状符号表和栈结构符号表等)。符号表中所登记的信息在编译的不同阶段都要用到。在语义分析中,符号表所登记的内容将用于语义检查(如检查一个名字的使用和原先的说明是否一致)和产生中间代码。在目标代码生成阶段,当对符号名进行地址分配时,符号表是地址分配的依据。
在Javac源代码中,填充符号表的过程由com.sun.tools.javac.comp.Enter
类实现,此过程的出口是一个待处理列表(To Do List),包含了每一个编译单元的抽象语法树的顶级节点,以及package-info.java(如果存在的话)的顶级节点
在JDK 1.6中实现了JSR-269规范,提供了一组插入式注解处理器的标准API在编译期间对注解进行处理,我们可以把它看做是一组编译器的插件,在这些插件里面,可以读取、修改、添加抽象语法树中的任意元素。如果这些插件在处理注解期间对语法树进行了修改,那么编译器将回到解析及填充符号表的过程重新处理,直到所有的插入式注解处理器都没有再对语法树进行修改为止,每一次循环称为一个Round。
在Javac源码中,插入式注解处理器的初始化过程是在initPorcessAnnotations()
方法中完成的,而它的执行过程则是在processAnnotations()
方法中完成的,这个方法判断是否还有新的注解处理器需要执行,如果有的话,则通过com.sun.tools.javac.processing.JavacProcessingEnvironment
类的doProcessing()
方法生成一个新的JavaCompiler对象对编译的后续步骤进行处理。
语法分析之后,编译器将获得代码的抽象语法树表示,语法树能表示一个结构正确的源程序的抽象,但无法保证源程序是符合逻辑的。而语义分析的主要任务是对结构上正确的源程序进行上下文有关性质的审查,如进行类型审查。
如下的三个变量定义语句:
int a=1;
boolean b=false;
char c=2;
后续可能出现的赋值运算如下:
int d=a+c;
int d=b+c;
char d=a+c;
后续代码中如果出现了如上三种赋值运算的话,那它们都能构成结构正确的语法树,但是只有第一种的写法在语义上是没有问题的,能够通过编译,其余两种在Java语言中是不合逻辑的,无法编译(是否合乎语义逻辑必须限定在具体的语言与具体的上下文环境之中才有意义。如在C语言中,a、b、c的上下文定义不变,第二、三种写法都是可以被正确编译的)。
标注检查
Javac的编译过程中,语义分析过程分为标注检查和数据及控制流分析两个步骤,分别由attribute()和flow()方法完成。
标注检查步骤检查的内容包括诸如变量使用前是否已被声明、变量与赋值之间的数据类型是否能够匹配,等等。在标注检查步骤中,还有一个重要的动作称为常量折叠,如果我们在代码中写了如下定义:
int a=1+2;
在语法树上仍然能看到字面量“1”、“2”和操作符“+”号,但是在经过常量折叠之后,它们将会被折叠为字面量“3”。由于编译期间进行了常量折叠,所以在代码里面定义“a=1+2”比起直接定义“a=3”,并不会增加程序运行期哪怕仅仅一个CPU指令的运算量。
标注检查步骤在Javac源码中的实现类是com.sun.tools.javac.comp.Attr
类和com.sun.tools.javac.comp.Check
类。
数据及控制流分析
数据及控制流分析对程序上下文逻辑更进一步的验证,它可以检查出诸如程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理了等问题。编译时期的数据及控制流分析与类加载时的数据及控制流分析的目的基本上是一致的,但校验范围有所区别,有一些校验项只有在编译期或运行期才能进行。由com.sun.tools.javac.comp.Flow
类来完成
解语法糖
语法糖(Syntactic Sugar),也称糖衣语法,是由英国计算机科学家彼得·约翰·兰达(Peter J.Landin)发明的一个术语,指在计算机语言中添加的某种语法,这种语法对语言的功能并没有影响,但是更方便程序员使用。通常来说使用语法糖能够增加程序的可读性,从而减少程序代码出错的机会。
Java中最常用的语法糖主要如泛型(泛型并不一定都是语法糖实现,如C#的泛型就是直接由CLR支持的)、变长参数、自动装箱拆箱,等等,虚拟机运行时不支持这些语法,它们在编译阶段被还原回简单的基础语法结构,这个过程就称为解语法糖。在Javac的源码中,解语法糖的过程由desugar()
方法触发,在com.sun.tools.javac.comp.TransTypes
类和com.sun.tools.javac.comp.Lower
类中完成。
字节码生成
字节码生成是Javac编译过程的最后一个阶段,在Javac源码里面由com.sun.tools.javac.jvm.Gen
类来完成。字节码生成阶段不仅仅是把前面各个步骤所生成的信息(语法树、符号表)转化成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作。
实例构造器<init>()方法和类构造器<clinit>()方法就是在这个阶段被添加到语法树之中的(注意这里的实例构造器并不是指默认构造函数,如果用户代码中没有提供任何构造函数,那编译器将会添加一个没有参数的、访问性(public、protected或private)与当前类一致的默认构造函数,这个工作在填充符号表阶段就已经完成),这两个构造器的产生过程实际上是一个代码收敛的过程,编译器会把语句块(对于实例构造器而言是“{}”块,对于类构造器而言是“static{}”块)、变量初始化(实例变量和类变量)、调用父类的实例构造器(仅仅是实例构造器,<clinit>()方法中无须调用父类的<clinit>()方法,虚拟机会自动保证父类构造器的执行,但在<clinit>()方法中经常会生成调用java.lang.Object的<init>()方法的代码)等操作收敛到<init>()和<clinit>()方法之中,并且保证一定是按先执行父类的实例构造器,然后初始化变量,最后执行语句块的顺序进行,上面所述的动作由Gen.normalizeDefs()方法来实现。除了生成构造器以外,还有其他的一些代码替换工作用于优化程序的实现逻辑,如把字符串的加操作替换为StringBuffer或StringBuilder(取决于目标代码的版本是否大于或等于JDK 1.5)的append()操作,等等.
完成了对语法树的遍历和调整之后,就会把填充了所有所需信息的符号表交到com.sun.tools.javac.jvm.ClassWriter类手上,由这个类的writeClass()方法输出字节码,生成最终的Class文件,到此为止整个编译过程宣告结束。
本文由 寻非 创作,如果您觉得本文不错,请随意赞赏
采用 知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名
原文链接:https://www.zhouning.group/archives/jvm基础篇14编译期一
最后更新:2020-09-01 21:54:41
Update your browser to view this website correctly. Update my browser now