antlr 在一段字符可被多个 terminal node 匹配时的行为

考虑下面一段 antlr 语法

STRING: [a-zA-Z0-9]+;
NUMBER: [0-9]+;
NEWLINE: '\r'? '\n';

root: id title EOF;

id: 'id:' NUMBER NEWLINE;
title: 'title:' STRING NEWLINE;

我们希望 id: 后面只存在数字，而 title: 后买可存在数字或字母，因而定义了 NUMBER 和 STRING 两个 terminal node 规则
然而这一段语法并不能正常工作

这就需要了解 antlr 解析的流程，其中与我们这个问题相关的有这两部分：

lexing：将输入的文本解析为一个个 token，进而构建一个 token stream 来作下面的处理
parsing：将 token 构建成 parse tree

对于 lexing：

所有以大写字母开头规则对应着 parse tree 中的 terminal node，有且只有它们被用来进行 lexing，这些规则是 lexer rule
antlr 会找到一个以当前的位置为起点、极长的、满足任意 lexer rule 的字符串，也就是如果将找到的这个字符串长度再加一，那么不存在任何 lexer rule
如果只有一个 lexer rule 能和这个字符串匹配，那么本次匹配找到的 token 自然就是这个 lexer rule 对应的 token
如果有多个，那么找到的 token 是按照语法文件定义顺序第一个 lexer rule 对应的 token

因此，title: abc12345 的 abc12345 可以被 STRING 匹配，而 id: 12345 仍然会被 STRING 匹配，因为 STRING 被定义在 NUMBER 前面。而 id 这条规则又要求匹配一个 NUMBER，这样就造成了错误
如果把 NUMBER 和 STRING 的顺序调换，那么 title: 12345 又会匹配到 NUMBER，依然存在错误

正确做法：

让所有 lexer rule 不交，转而使用非终止节点对应的规则，并允许其匹配多个 lexer rule，例如：string: (LETTER | DIGIT)+; number: DIGIT+;
将规则分散到多个语法文件中，再导入

posted @ 2023-12-29 16:25 suxxsfe 阅读(39) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· P3822 [NOI2017] 整数

· CF1625D Binary Spiders

· 6.1 LALRPOP's lexer generator LALRPOP 的词法分析器生成器

· Android-反编译教程-全-

· Leetcode 2337 -- 双指针&&脑筋急转弯

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· .NET Core 中如何实现缓存的预热？
· 三行代码完成国际化适配，妙~啊~
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？

公告

昵称： suxxsfe
园龄： 5年1个月
粉丝： 41
关注： 9

2025年3月

日

一

二

三

四

五

六

友链

公告

搜索

最新随笔

积分与排名

随笔分类 (684)

随笔档案 (299)

文章档案 (6)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

suxxsfe

这是子标题

公告

搜索