ANTLR, 语言识别的另一个工具(ANother Tool for Language Recognition ),(前身是PCCTS)是一种语言工具,它提供了一个框架,可以通过包含 Java,C++,或 C#动作(action)的语法描述来构造语言识别器,编译器和解析器。
-
前端:定义语法规则,antlr通过g4文件来定义
-
lexer:词法解规则,就是将一个句子多个字符进行组装分成多个单词的规则
-
parser:语法解析,对分词后的整个句子进行解析,可以对每个分词单元做出自定义的处理,从而来实现自己的语法解析功能。
g4文件是antlr生成词法解析规则和语法解析规则的基础。该文件是我们自定义的,文件名后缀需要是.g4。
rule是antlr生成词法语法解析的基础。包括了lexer与parser,每条规则都是key:value的形式,以分号结尾。lexer首字母大写,parser小写。
Tokens
词法原子单元会生成一个tokens文件,文件里为每个原子单元定义了一个序号(记号)
fragment词法规则
ANTLR文法中语法规则是在词法规则基础上建立的。但不一定每个词法规则都会被语法规则直接使用。这就象一个类的公有成员和私有成员,公有成员是对外公开的会被外界直接调用。而私有成员不对外公开是由公有成员间接调用的。在词法规则中那些不会被语法规则直接调用的词法规则可以用一个fragment关键字来标识,fragment标识的规则只能为其它词法规则提供基础。
//正确用法
a : INT;
INT : DIGIT+;
fragment DIGIT : '0' .. '9';
//错误用法
a : DIGIT;
INT : DIGIT+;
fragment DIGIT : '0' .. '9';
核心词法规则总结
Antlr
中有主要类有两种(其实还有一种 TreeLexer )
Lexer: 文法分析器类。主要用于把读入的字节流根据规则分段。既把长面条根据你要的尺寸切成一段一段:)并不对其作任何修改。
Parser: 解析器类。主要用于处理经过 Lexer 处理后的各段。一些具体的操作都在这里。
ANTLR
是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。它被广泛应用于学术领域和工业生产实践,是众多语言、工具和框架的基石。Twitter搜索使用
ANTLR
进行语法分析,每天处理超过20亿次查询;Hadoop生态系统中的Hive、Pig、数据仓库和分析系统所使用的语言都用到了
ANTLR
;Lex Machina将
ANTLR
用于分析法律文本;Oracle公司在SQL开发者IDE和迁移工具中使用了
ANTLR
;NetBeans公司的IDE使用
ANTLR
来解析C++;Hibernate对象-关系映射框架(ORM)使用
ANTLR
来处理HQL语言。
除了这些鼎鼎大名的项目之外,还可以利用
ANTLR
构建各种各样的实用工具,如配置文件读取器、遗留代码转换器、维基文本渲染器,以及JSON解析器。我编写了一些工具,用于创建数据库的对象-关系映射、描述三维可视化以及在Java源代码中插入性能监控代码。我甚至为一次演讲编写了一个简单的DNA模式匹配程序。
一门语言的正式描述称为语法(grammar),
ANTLR
能够为该语言生成一个语法分析器,并自动建立语法分析树——一种描述语法与输入文本匹配关系的数据结构。
ANTLR
也能够自动生成树的遍历器,这样你就可以访问树中的节点,执行自定义的业务逻辑代码。
本书既是
ANTLR
4的参考手册,也是解决语言识别问题的指南。你会学到如下知识:
识别语言样例和参考手册中的语法模式,从而编写自定义的语法。
循序渐进地为从简单的JSON到复杂的R语言编写语法。同时还能学会解决XML和Python中棘手的识别问题。
基于语法,通过遍历自动生成的语法分析树,实现自己的语言类应用程序。
在特定的应用领域中,自定义识别过程的错误处理机制和错误报告机制。
通过在语法中嵌入Java动作(action),对语法分析过程进行完全的掌控。
本书并非教科书,所有的讨论都是基于实例的,旨在令你巩固所学的知识,并提供语言类应用程序的基本范例。
本书的读者对象本书尤其适用于对数据读取器、语言解释器和翻译器感兴趣的开发者。虽然本书主要利用
ANTLR
来完成这些工作,你仍然可以学到很多有关词法分析器和语法分析器的知识。初学者和专家都需要本书来高效地使用
ANTLR
4。如果希望学习第三部分中的高级特性,你需要先了解之前章节中的
ANTLR
基础知识。此外,读者还需要具备一定的Java功底。
Honey Badger版本
ANTLR
4的版本代号是“Honey Badger”,这个名字来源于一段著名的YouTube短片The Crazy Nastyass Honey Badger(网址为:http://www.youtube.com/watch?v=4r7wHMg5Yjg)中的勇敢无畏的主角——一只蜜獾。它敢吃你给它的任何东西,根本不在乎那是什么!
ANTLR
4有哪些神奇之处
ANTLR
4引入了一些新功能,降低了
入门
门槛,使得语法和语言类应用程序的开发更加容易。最重要的新特性在于,
ANTLR
4几乎能够处理任何语法(除了间接左递归,稍后会提到)。在
ANTLR
将你的语法转换成可执行的、人类可读的语法分析代码的过程中,语法冲突或者歧义性警告不会再出现。
无论多复杂的语法,只要你提供给
ANTLR
自动生成的语法分析器的输入是合法的,该语法分析器就能够自动识别之。当然,你需要自行保证该语法能够准确地描述目标语言。
ANTLR
语法分析器使用了一种名为自适应LL(*)或者ALL(*)(读作“all star”)的新技术,它是由我和Sam Harwell一起开发的。ALL(*)是
ANTLR
3中的LL(*)的扩展,在实际生成的语法分析器执行前,它能够在运行时以动态方式对语法执行分析,而非先前的静态方式。由于ALL(*)语法分析器能够访问实际的输入文本,通过反复分析语法的方式,它最终能够决定如何识别输入文本。相比之下,静态分析必须考虑所有可行的(无限长的)输入序列。
在实践中,拥有ALL(*)意味着你无须像在其他语法分析器生成工具(包括
ANTLR
3)中那样,扭曲语法以适应底层的语法分析策略。如果你曾经为
ANTLR
3的歧义性警告和yacc的归约/归约冲突(reduce/reduce conflict)而抓狂,
ANTLR
4就是你的不二之选!
另外一个强大的新功能是
ANTLR
4极大地简化了匹配某些句法结构(如编程语言中的算术表达式)所需的语法规则。长久以来,处理表达式都是
ANTLR
语法(以及手工编写的递归下降语法分析器)的难题。识别表达式最自然的语法对于传统的自顶向下的语法分析器生成器(如
ANTLR
3)是无效的。现在,利用
ANTLR
4,你可以通过如下规则匹配表达式:
类似expr的自引用规则是递归的,更准确地说,是左递归(left recursive)的,因为它的至少一个备选分支直接引用了它自己。
ANTLR
4自动将类似expr的左递归规则重写成了等价的非左递归形式。唯一的约束是左递归必须是直接的,也就是说规则直接引用自身。一条规则不能引用另外一条规则,如果后者的备选分支之一在左侧直接引用了前者(而没有匹配一个词法符号)。详见5.4节。
除了上述两项与语法相关的改进,
ANTLR
4还使得编写语言类应用程序更加容易。
ANTLR
生成的语法分析器能够自动建立名为语法分析树(parse tree)的视图,其他程序可以遍历此树,并在所需处理的结构处触发回调函数。在先前的
ANTLR
3中,用户需要补充语法来创建树。除了自动建立树结构之外,
ANTLR
4还能自动生成语法分析树遍历器的实现:监听器(listener)或者访问器(visitor)。监听器与在XML文档的解析过程中响应SAX事件的处理器相似。
由于拥有以下几点
ANTLR
3所不具备的新特性,
ANTLR
4显得非常容易上手:
最大的改变是
ANTLR
4降低了语法中内嵌动作(代码)的重要性,取而代之的是监听器和访问器。新机制将语法和应用的逻辑代码解耦,使得应用程序本身被封装起来,而非散落在语法的各处。在没有内嵌动作的情况下,你可以在多个程序中复用同一份语法,甚至都无须重新编译生成的语法分析器。虽然
ANTLR
仍然允许内嵌动作的存在,但是在
ANTLR
4中,它们更像是一种进阶用法。这样的行为能够最大程度地掌控语法分析过程,但其代价是语法复用性的丧失。
由于
ANTLR
能够自动生成语法分析树和树的遍历器,在
ANTLR
4中,你无须再编写树语法。取而代之的是一些广为人知的设计模式,如访问者模式。这意味着,在学会了
ANTLR
语法之后,你就可以重回自己熟悉的Java领域来实现真正的语言类应用程序。
ANTLR
3的LL(*)语法分析策略不如
ANTLR
4的ALL(*)强大,所以
ANTLR
3为了能够正确识别输入的文本,有时候不得不进行回溯。回溯的存在使得语法的调试格外困难,因为生成的语法分析器会对同样的输入进行(递归的)多趟语法分析。回溯也为语法分析器在面对非法输入时给出错误消息设置了重重障碍。
ANTLR
4是25年前我读研究生时所走的一小段弯路的成果。我想,我也许会稍微改变我曾经的座右铭。
为什么不花5天时间编程,来使你25年的生活自动化呢?
ANTLR
4正是我所期望的语法分析器生成器,现在,我终于能够回头去研究我原先在20世纪80年代试图解决的问题——假如我还记得它的话。
本书的主要内容本书是你所能找到的有关
ANTLR
4的信息源中最好、最完整的。免费的在线文档提供了足够多有关基础语法的句法和语义的资料,不过没有详细解释
ANTLR
的相关概念。在本书中,识别语言的语法模式和将其表述为
ANTLR
语法的内容是独一无二的。贯穿全书的示例能够在构建语言类应用程序方面助你一臂之力。本书可帮助你融会贯通,成为
ANTLR
专家。
本书由四部分组成。
第一部分介绍了
ANTLR
,提供了一些与语言相关的背景知识,并展示了
ANTLR
的一些简单应用。在这一部分中,你会了解
ANTLR
的句法以及主要用途。
第二部分是一部有关设计语法和使用语法来构建语言类应用程序的“百科全书”。
第三部分展示了自定义
ANTLR
生成的语法分析器的错误处理机制的方法。随后,你会学到在语法中嵌入动作的方法——在某些场景下,这样做比建立树并遍历之更简单,也更有效率。此外,你还将学会使用语义判定(semantic predicate)来修改语法分析器的行为,以便解决一些充满挑战的识别难题。
本部分的最后一章解决了一些充满挑战的识别难题,例如识别XML和Python中的上下文相关的换行符。
第四部分是参考章节,详细列出了
ANTLR
语法元语言的所有规则和
ANTLR
运行库的用法。
完全不了解语法和语言识别工具的读者请务必从头开始阅读。具备
ANTLR
3使用经验的用户可从第4章开始阅读以学习
ANTLR
4的新功能。
有关
ANTLR
的更多在线学习资料在http://www.
antlr
.org上,你可以找到
ANTLR
、
ANTLR
Works2图形界面开发环境、文档、预制的语法、示例、文章,以及文件共享区。技术支持邮件组是一个对初学者十分友好的公开讨论组。
Terence Parr2012年11月于旧金山大学致 谢Acknowledgements大约25年前,我开始致力于
ANTLR
的相关工作。那时,在许多人的帮助下,
ANTLR
工具的句法和功能逐渐成形,在此,我向他们致以由衷的感谢。要特别感谢的是Sam Harwell,他是
ANTLR
4的另一位开发者。他不仅帮助我完成了此软件,而且在ALL(*)语法分析算法上做出了突出的贡献。Sam也是
ANTLR
Works2语法IDE的开发者。
感谢以下人员对本书进行了技术审阅:Oliver Ziegermann、Sam Rose、Kyle Ferrio、Maik Schmidt、Colin Yates、Ian Dees、Tim Ottinger、Kevin Gisi、Charley Stran、Jerry Kuch、Aaron Kalair、Michael Bevilacqua-Linn、Javier Collado、Stephen Wolff以及Bernard Kaiflin。同时,我还要感谢那些在本书和
ANTLR
4软件处于beta版本时报告问题的热心读者。尤其要感谢的是Kim Shrier和Graham Wideman,他们二位的审阅格外认真。Graham的审阅报告之仔细、翔实和广博,令我不知是该紧握他的手予以感谢,还是该为自己的疏漏羞愧难当。
最后,我还要感谢编辑Susannah Davidson Pfalzer,她一如既往地支持我完成了三本书的创作。她提出的宝贵建议和对本书内容的精雕细琢使本书更加完美。
The Translator's Words译 者 序四年前,我在读研究生时曾经参考龙书编写过一个简单的编译器前端。经过一个星期的实践后,我意识到,从头实现一个编译器前端的难度远远超出了一般开发者的能力。编写编译器前端所需要的理论基础、技术功底和精力都远非普通软件可比。
幸运的是,
ANTLR
的出现使这个过程变得易如反掌。
ANTLR
能够根据用户定义的语法文件自动生成词法分析器和语法分析器,并将输入文本处理为(可视化的)语法分析树。这一切都是自动进行的,所需的仅仅是一份描述该语言的语法文件。
一年前,我在为淘宝的一个内部数据分析系统设计DSL时,第一次接触到了
ANTLR
。使用
ANTLR
之后,我在一天之内就完成了整个编译器前端的开发工作,从而能够迅速开始处理真正的业务逻辑。从那时起,我就被它强大的功能所深深吸引。简而言之,
ANTLR
能够解决别的工具无法解决的问题。
软件改变了世界。数十年来,信息化的浪潮在全球颠覆着一个又一个的行业。然而,整个世界的信息化程度还远未达到合理的高度,还有大量传统行业的生产力可以被信息化所解放。在这种看似矛盾的情形背后存在着一条鸿沟:大量从事传统行业的人员拥有在本行业中无与伦比的业务知识和经验,却苦于跟不上现代软件发展的脚步。解决这个问题的根本方法就是DSL(Domain Specific Language),让传统行业的人员能够用严谨的方式与计算机对话。其实,本质上任何编程语言都是一种DSL,殊途同归。
而实现DSL的主要困难就在编译器前端。编译器被称为软件工程皇冠上的明珠。一直以来,对于普通的开发者而言,编译器的设计与实现都如同诗中描述的那样:“白云在青天,可望不可即。”
ANTLR
改变了这一切。
ANTLR
自动生成的编译器前端高效、准确,能够将开发者从繁杂的编译理论中解放出来,集中精力处理自己的业务逻辑。
ANTLR
4引入的自动语法分析树创建与遍历机制,极大地提高了语言识别程序的开发效率。
时至今日,
ANTLR
仍然是Java世界中实现编译器的不二之选,同时,它对其他编程语言也提供了不同程度的支持。在开始学习
ANTLR
时,我发现国内有关
ANTLR
的资料较为贫乏,这催生了我翻译本书的念头。我期望通过本书的翻译,让更多的开发者能够更加自如地解决职业生涯中碰到的难题。
本书没有冗长的理论,而是从一些具体的需求出发,由浅入深地介绍了语言的背景知识、
ANTLR
语法的设计方法以及基于
ANTLR
4实现语言识别程序的详细步骤。它尤其适用于对语言识别程序的开发感兴趣的开发者。不过,假如你现在没有这样的需求,我仍然建议你阅读本书,因为它能够开拓你的眼界,让你深入实现层面加深对编程语言的理解。
命令倒入长矛手德拉蒙德迪:
java org.
antlr
.v4.Tool * .g4
javac * .java。\ AdresseType.java。\ TablesSymboles.java。\ TableSymboles.java
java -cp“ {Chemin du jar
antlr
}” org.
antlr
.v4.gui.TestRig calcul'开始'
更多信息:
[x]表达习俗的逻辑
[x]巡回演出:反复进行...直到
[]语法功能分析
[]集体活动:参数,出击等
[]支持最少的飘浮物
[] Tester sur quelques程序分类
[] Autresaméliorations
ANTLR
4的RRD
ANTLR
4语法规则的铁路图。
我不会在此工具中添加新功能。 如果您正在寻找功能更全的工具(仅包括一件事,包括LaTeX输出)以及该工具的更模块化的安装版本,请查看flashpixx的RRD-
ANTLR
4: :
该工具解析
ANTLR
4语法,并创建一个HTML页面,其中包含该语法中的所有解析器和词法分析器规则以及随附的铁路图,并创建所有语法规则的单独的铁路PNG图像。
克隆此存储库:
git clone https://github.com/bkiers/rrd-
antlr
4.git
然后构建它:
cd rrd-
antlr
4
mvn clean package
可以在target文件夹中找到包含所有依赖项的JAR文件。
要通过解析在官方
ANTLR
4存储库中找到的JSON语法进行测试,请从终端运行以下命令:
cd target
ANTLR
语言识别的一个工具 (ANother Tool for Language Recognition ) 是一种语言工具,它提供了一个框架,可以通过包含 Java, C++, 或 C# 动作(action)的语法描述来构造语言识别器,编译器和解释器。 计算机语言的解析已经变成了一种非常普遍的工作,在这方面的理论和工具经过近 40 年的发展已经相当成熟,使用 An
antlr
4 简介
ANTLR
(全名:ANother Tool for Language Recognition)是基于LL(*)算法实现的语法解析器生成器(parser generator),用Java语言编写,使用自上而下(top-down)的递归下降LL剖析器方法。由旧金山大学的Terence Parr博士等人于1989年开始发展。
ANTLR
最初叫做PCCTS,Purdue Compiler Construction Tool Set,是 Terence Parr 在普渡大学攻读硕士学位时的创作,在
ANTLR
介绍1 简介2 发展历程3 应用4 对比Flex & Bison4.1 功能4.2 生成语言4.3 是否图形化4.4 是否支持插件参考
ANTLR
(语言识别工具)是一个功能强大的解析器生成器,用于读取,处理,执行或翻译结构化文本或二进制文件。它被广泛用于构建语言、工具和框架。从语法中,
ANTLR
生成一个解析器,该解析器可以构建和遍历解析树。
2 发展历程
4 对比Flex & Bison
4.1 功能
ANTLR
可以一站式的解决词法与语法解析器的生成。
关于命令行参数的解析没有特定的规则,目前比较流行的有unix风格和微软风格。其实除了unix风格的比较一致外,微软自己提供的命令行参数解析就有很多种风格。在.net平台下的main函数中,仅仅把参数分解为以空格分割的数组,这对需要加开关,并且有的开关有自己的参数的情况是不够的,而且为了解析这些参数需要学习部分词法分析的知识,这对用处不是很大的命令行参数显得有些“鸡肋”,当然用
Antlr
来处理命令行...
解析规则(parser rule) 以小写字母开头命名(驼峰命名法)
2、文字(Literals)
ANTLR
不区分字符和字符串.所有的字符串(这里是指出现在源文件中的需要被识别的字符串)都是由单引号引用起...
yacc Yet Another Compiler Compiler
jacc just another compiler compiler fro Java,
ANTLR
ANother Tool for Language Recognition
下面主要介绍的是
Antlr
。
Antlr
的作者是 Terence Parr ,...