5.JavaCC官方入门指南-概述
一、前言
在最开始使用JavaCC的时候,从网上查询了许多资料,但是网上的资料水平是参差不齐的,走了许多弯路,不得已自己查阅了英文版官网文档。令我伤心的是最后我回过头来再看那些博客资料时,发现其实他们写的都是没错的,只不过某些地方少了必要的讲解,以至于新手刚接触的时候是持续懵逼的。
不管怎样,下面内容是对官方文档的翻译,加上一些自己的理解。
官方文档连接:https://www.engr.mun.ca/~theo/JavaCC-Tutorial/javacc-tutorial.pdf
这里所翻译的部分是JavaCC的入门知识,通过由浅入深的几个小例子,可以循序渐进的一步步了解JavaCC技术。
二、 JavaCC概述
JavaCC全称为Java Compiler Compiler,它是一个生成器,用于生成词法分析器(lexical analysers)和语法分析器(parsers)。它可以通过读取一个词法和语法描述文件(即词法和语法描述是写在同一个文件中的),来生成一个java程序,这个java程序就包括了词法分析器和语法分析器。接着就可以用生成的词法分析器和语法分析器来对我们的输入进行判断,判断输入是否符合我们所要求的语法规则。
编程语言中的编译器,其实就包含了词法分析器和语法分析器,编译器便是通过这两者来识别我们所编写的代码。除了在编译器中的应用之外,词法分析器和语法分析器在其他程序中也有着广泛的应用。
那么什么是词法分析器和语法分析器呢?其中,词法分析器可以将一个字符序列拆分为一个个的子单元,这些子单元,在JavaCC中被称之为token——也就是说,词法分析器可以将一个字符序列拆分为一个个的token。这个解释可能依然有点让人摸不着头脑,下面看一个例子。
假设我们要用词法分析器来解析下面的一段C语言编写的代码:
int main() {
return 0 ;
}
那么C语言编译器中的词法分析器会将上述代码拆分为如下的token序列:
“int”, “ ”, “main”, “(”, “)”,
“ ”, “{”, “\n”, “\t”, “return”
“ ”, “0”, “ ”, “;”, “\n”,
“}”, “\n”, “” .
可以看到所谓的拆分就是把int、空格、main、左括号等等各种字符给拆开罢了。那么在JavaCC中,会给拆分后得到的一个个token取一个逻辑上的名字,比如在本例中,我们所取的名称可以如下:
KWINT, SPACE, ID, OPAR, CPAR,
SPACE, OBRACE, SPACE, SPACE, KWRETURN,
SPACE, OCTALCONST, SPACE, SEMICOLON, SPACE,
CBRACE, SPACE, EOF .
如此一来,KWINT这个token就表示“int”, SPACE这个token就表示“ ”, OPAR就表示左括号“(”等等。因此在JavaCC中,一般说到token的时候,一般指的是KWINT、SPACE、OPAR等这些东西。另外,EOF这个token表示“文件的末尾”。
经过词法分析而得到的tokens序列,在之后将会被传给语法分析器进行语法判断。
在C语言的编译器中,有时语法分析器在分析的时候是不需要所有的token的。比如在本例中,SPACE这个token就可以不用往下传给语法分析器了,那么此时SPACE这个 token应该如何处理掉,将在后面说到。
在本例中,语法分析器将会对拿到的tokens序列进行分析,判断这些tokens序列是否符合c语言的语法结构。
此外,词法分析器和语法分析器在分析的时候,还有可能会产生错误信息,即当你的输入并不符合你所定义的词法和语法规范时,就会抛出错误信息。
最后需要注意的是,JavaCC本身并不是词法分析器和语法分析器,它是一个生成器!JavaCC通过读取一个后缀为.jj的描述文件中的特定描述,来生成词法分析器和语法分析器,并且生成的词法分析器和语法分析器使用Java书写的。)
至此,已经简单说明了JavaCC是什么,以及词法分析器和语法分析器的作用,还引出了token的概念。下面将通过例子来一步一步进行讲解。