基于概率上下文无关文法的句法分析研究文献综述

 2022-09-22 11:47:06

文献综述(或调研报告):

句法结构分析方法可以分为基于规则的分析方法和基于统计的分析方法两大类。基于规则的句法结构分析方法的基本思路是,由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法结构歧义的消除。基于统计的分析方法多是从20世纪80年代中期开始,目前研究较多的句法分析方法是语法驱动的(grammar-driven),其基本思想是由生成语法定义被分析的语言及其分析出的类别,在训练数据中观察到的各种语言现象的分布以统计数据的方式与语法规则一起编码。在句法分析的过程中,当遇到歧义情况时,统计数据用于对多种分析结果的排序或选择[1]。

20世纪50年代,乔姆斯基从香农的工作中吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为一种工具来刻画语法,并且把有限状态语言定义为由有限状态语法生成的语言,建立了自然语言的有限状态模型。乔姆斯基用数学中的公理化方法来研究自然语言,采用代数和集合论把形式语言定义为符号的序列,分别建立了正则文法、上下文无关文法、上下文有关文法和无约束文法的数学模型。这些早期的研究工作产生了“形式语言理论”(formal language theory)这个新的研究领域,为自然语言和形式语言找到了一种统一的数学描述理论,形式语言理论也成为计算机科学最重要的理论基石[1]。

CYK分析算法是由Kasami等提出的[2],是基于动态规划思想设计的一种自底向上语法分析算法,用于测试串w对于一个上下文无关文法L的成员性。CYK算法可以在O(n3)的时间内得出结果,标准的CYK处理的规则必须表示为乔姆斯基范式的形式。CYK算法是由三个独立发现同样思想本质的人(J. Cocke、D. Younger和T. Kasami)来命名的。

Earley算法是1970年由Earley提出[3],是一种典型的自顶向下的分析方法,该算法的中心思想是首先构造一个上下文无关文法规则的分析列表,这就相当于把输入句子的所有可能的分析状态构造出来,然后再根据分析列表列出分析结果。

线图分析算法[4]使用线图结构作为关键数据结构,用来存放分析中间结果的数据。线图分析算法非常灵活,通过修改线图算法中的分析策略,容易模拟多种形式的其他算法实现自顶向下的分析、自底向上的分析以及左角分析算法等等。这也是线图分析算法得到广泛应用的原因之一。

Gazdart等提出了广义短语结构语法(Generalized Phrase Structure Grammar, GPSG),使用特征和值构成的有序二元组以及嵌套的特征表示来进行句法分析,这就使得二元组可以达到很复杂的程度[5]。GPSG从语言学的角度对语法理论进行扩充,虽然一定程度上增加了语法的表达能力,但是从句法分析的角度看,简单有效的语法体系更为实用,在用机器实现复杂的语法体系时,句法建模、分析复杂度、甚至实现的可行性方面都存在困难。

中心语驱动的短语结构语法(Head-driven Phrase Structure Grammar,HPSG)由Pollard和Sag提出[6],该语法基本上继承了广义短语结构语法的原则,并根据自然语言处理的实践进行了重要的改进,其中的一个突出特点是特别强调中心语在语法分析中的作用,使整个语法系统由中心语驱动。HPSG也重视词汇的作用,尤其是中心语,语法试图把人类的语言模型描述成一个特征结构限制的系统,实行严格的词汇主义,使得词汇的结构和短语的结构都由一些独立的原则来支配。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版