- 文献综述(或调研报告):
- NLP工具
SENNA[1]的初衷是提出一种统一的神经网络架构和学习算法,可以应用于各种自然语言处理任务,包括词性标注、分块、命名实体识别和语义角色标记。其原理是通过神经网络进行词向量的计算和训练,进而用训练好的词向量完成各种NLP任务。虽然SENNA的提出年代较早(2011年),但是其在性能方面至今为止仍然十分的优秀[2],因此很多的论文都使用SENNA作为文本处理的工具。此外,SENNA项目本身是由C语言编写而成,在速度方面的表现也是十分理想的。
Stanford parser 是由斯坦福大学自然语言处理小组开发的开源句法分析器,是基于概率统计句法分析的一个 JAVA 实现。基于统计的方法是现阶段句法分析的主流技术,常见的概率句法分析模型包括概率上下文无关模型、基于历史的句法分析模型、层次化渐进式的句法分析模型和中心词驱动的句法分析模型。
- 实体链接技术
实体链接(EL)是语义文本理解和信息提取的基本任务。流行的方法分别解决了EL的提及检测(MD)和实体消歧(ED)阶段,而没有利用它们的相互依赖性。有人提出了一个神经端到端EL系统[6],它共同发现并链接文本文档中的实体。主要思想是将所有可能的跨度视为潜在的提及,并学习对其实体候选者的上下文相似性得分,这对MD和ED决策都有用。关键组件是上下文感知提及嵌入,实体嵌入和概率提及 - 实体映射,而不需要其他工程特性。根据经验,当有足够的训练数据时,这种端到端方法明显优于Gerbil平台上的流行系统。相反,如果测试数据集遵循与训练集相比不同的注释约定(例如查询/推文与新闻文档),其ED模型与传统的NER系统相结合,可提供最佳或次佳的EL精度。
随着人们开始发现统计和嵌入功能的强大功能,非线性模型最近受到了很多关注。然而,尽管最近非线性模型在各种分类和排序任务上取得了成功,但很少有人在结构化学习的背景下研究基于树的模型。基于此有人提出了S-MART[4],一种基于树的结构化学习框架,基于多个加性回归树。S-MART特别适用于处理具有密集特征的任务,并且可用于在各种损失函数下学习许多不同的结构。因此可以将S-MART应用于推文实体链接的任务 - 推文信息提取的核心组件,旨在识别名称提及并将其链接到知识库中的实体。提出了一种新的推理算法来处理任务的特殊结构。实验结果表明,S-MART明显优于最先进的推文实体链接系统。
通过链接开放数据链接文本文档,可以将Web数据用作面向文档的应用程序(如搜索和分面浏览)中的背景知识。DBpedia Spotligh[8]是一个使用DBpedia URI自动注释文本文档的系统。 DBpedia Spotlight允许用户通过DBpedia本体和质量测量来确定其特定需求的注释,例如突出性,主题相关性,上下文模糊性和消歧能力。DBpedia Spotlight作为开源共享,并作为Web服务部署,可免费供公众使用。
- 关系链接技术
将自然语言问题转换为正式查询是问答(QA)系统中不可或缺的任务。建立在像DBpedia这样的知识图上的QA系统需要在自然语言处理之后的一些步骤,用于将单词(具体包括命名实体和关系)链接到知识图中的对应实体。为了实现该任务,若干方法依赖于包含语义类型关系的背景知识库,例如PATTY,用于额外的消歧步骤。无论何时访问背景知识库,都有两个主要因素可能会影响关系链接方法的表现:a)这种语义知识来源的有限可用性,以及b)缺乏如何最大化所收集知识的益处的系统方法。有人解决了这个问题并设计了SIBKB[5],这是一种基于语义的索引,能够捕获在PATTY等背景知识库中编码的知识。 SIBKB表示背景知识库,作为知识库中包含的关系模式的双向和动态索引。此外,我们开发了一个能够利用SIBKB功能的关联组件。 SIBKB的好处是根据现有QA基准进行的实证研究,观察结果表明SIBKB能够将关联链接的准确性提高多达三倍。
- 联合实体关系链接[3]
许多在知识图上的问答系统依赖于实体和关系链接组件,以便将自然语言输入链接到底层知识图。传统来说,实体链接和关系链接已经作为从属顺序任务或作为独立的并行任务执行。如果是从属顺序执行,那么实体链接的时候就无法利用关系链接阶段的信息;如果是并行执行,那么它们各自都无法利用另一阶段的信息。无论是哪种情况,多多少少都会影响链接的精确程度。此外,大多数的实体链接系统都是通过查看输入文本中存在的其他实体来执行消歧。然而,在自然语言问题(短文本片段)的情况下,用于消除歧义的其他实体的数量不高。因此,组合考虑输入问题的实体和关系候选者可能是有益的,以最大化候选选择过程的可用证据。
参考文献:
