使用golang+antlr4构建一个自己的语言解析器(完结篇)
Goland 中Antlr4插件
在goland中安装Antlr4插件,用于识别输入的字符在在语法文件中生成的语法树的样子,大概就是如下的摸样
下载步骤:
1.点击文件中的设置选项
2.在插件目录下输入Antlr4搜索插件
3.点击安装即可
编写自己的语言语法文件
编写语法之前,我们首先要构思一下自己的DSL都有什么关键字,这是个重要的步骤,就像我们学习java或者Golang一样,首先知道这个语法里面都有那些关键字。
我定义的DSL中有四则运算,有比较运算,还有逻辑运算,变量可以有数字、字符串、时间格式
关键字
四则运算
作用 | 符号 |
---|---|
乘法 | * |
除法 | / |
加法 | + |
减法 | - |
比较运算
作用 | 符号 |
---|---|
等于 | = |
不等于 | <> |
大于 | > |
大于等于 | >= |
小于 | < |
小于等于 | <= |
逻辑运算
作用 | 符号 |
---|---|
且 | && |
或 | || |
如果 | if |
否则 | else |
变量
作用 | 符号 |
---|---|
数字 | ('0' | [1-9] ('_'? [0-9])*) |
文本 | [\p{Nd}] |
字符串 | LETTER (LETTER |
日期 | ([0-9]{4}/[0-1]{0,1}[0-9]/[0-3]{0,1}[0-9]) |
常量辅助符号
作用 | 符号 |
---|---|
点 | . |
逗号 | , |
左括号 | ( |
右括号 | ) |
分号 | ; |
多行注释 | '/*' .*? '*/' |
上述就是我们的Token列表,可以创建一个文法文件单独写Token,文法文件申明:lexer grammar Lexer;
编写语法
编写语法之前,我们需要构思一下,我们的DSL可以支持那些语法操作,例如四则运算可以支持字符串运算吗?日期支持四则运算吗?我们可以从基础开始编写,例如我们把变量使用算则模式编写成一个语法规则,
simpleStmt:NUMBER|TEXT|STRING|DATE
我的DSL中支持任何数据的四则运算,那么我就可以使用simpleStmt和四则运算符号组成四则运算
expression:
simpleStmt #SimpleExpression
|expression op = (MUL|DIV) expression #MulDiv
|expression op = (ADD|SUB) expression #AddSub
;
这时候我们就定义了支持四则运算的语法规则,我们来试一下语法定义的对不对。
发现我们输入的加法运算和乘法运算都可以被解析,说明我们的语法定义正确。接下来我们添加比较运算
我定义的DLS支持所有数据做比较运算,那么我直接在上面的expression中添加比较运算就可以了,这里需要注意的是比较运算如果希望有优先级,需要先定义优先级高的比较符号,我这里没有优先级操作,所以都是平级的。
添加比较运算符号
expression:
simpleStmt #SimpleExpression
|expression op = (MUL|DIV) expression #MulDiv
|expression op = (ADD|SUB) expression #AddSub
|expression op = (EQ|NE|LT|LE|GT|GE) expression #Compare
;
验证一下比较运算语法定义的是否正确。
发现没有错误,正确解析出树就代表语法定义的正确。接下来大家可以自己构思一下剩下的语法规则,或者添加自己的语法规则了。大概思路就是先想一个语法希望是什么样,然后编写语法规则,然后输入希望的格式验证语法规则。
编写Listener
还是老样子,编写号语法文件,我们执行Antlr4生成运行时语言为Go的命令:
java -jar 'C:\Program Files\Java\antlr\antlr-4.12.0-complete.jar' -Dlanguage=Go -no-visitor -package parser *.g4
编写监听器类
type CalcListener struct{
*parser.BaseCalcListener //继承Listener基类
*antlr.DefaultErrorListener //继承错误基类
}
//发生错误时,处理错误
func (l *CalcLister) SyntaxError(recognizer antlr.Recognizer, offendingSymbol interface{}, line, column int, msg string, e antlr.RecognitionException) {
}
//退出MulDiv语法时
func (l *CalcLister) ExitMulDiv(c *parser.MulDivContext) {
}
//退出AddSub语法时
func (l *CalcLister) ExitAddSub(c *parser.AddSubContext) {
}
//退出数字语法时
func (l *CalcLister) ExitNumber(c *parser.NumberContext) {
}
这里细心的小伙伴已经发现,在语法文件中使用“#”指定的节点名称在监听器中回生成一个节点方法,在Antlr4中,“#”号代表手动指定语法规则名称,需要注意的是,不要跟Token和规则名称重复。
遍历语法树
Antlr4遍历语法树时,使用DFS方式遍历树
监听模式和访问模式
Antlr4提供了两种遍历语法树的方式,监听模式和访问模式,默认是监听模式,如果希望使用访问模式的话,需要修改命令:
java -jar 'C:\Program Files\Java\antlr\antlr-4.12.0-complete.jar' -Dlanguage=Go -visitor -package parser *.g4
这样会生成访问者模式和监听者模式
calc_base_listener.go //监听者模式基类文件
calc_base_visitor.go //访问者模式基类文件
访问者模式:先遍历父节点,然后遍历子节点
监听者模式:Enter先进入父节点,Exit最后退出父节点
个人建议还是使用监听者模式,在Enter控制子节点访问,Exit做父节点子树执行逻辑。访问者模式控制能力更强,监听者模式需要遍历整个树。
至此,使用golang+Antlr4就可以定义一个属于自己的语法规则的解析器了,如果有哪里不同的可以给小编留言,我们共同学习!!!