【技术白皮书】第五章：信息抽取技术的未来发展趋势和面临的挑战

3年前 (2022) 程序员胖胖胖虎阿

471 0 0

5.信息抽取技术的未来发展趋势和面临的挑战

5.1 NER技术的未来发展趋势和面临的挑战

论文《 Survey on Deep Learning for Named Entity Recognition》总结了NER技术面临的挑战和未来发展方向。随着建模语言的进步和实际应用的需求，NER会得到研究人员更多的关注。另一方面，NER通常被视为下游应用程序的预处理组件。这意味着特定的NER任务由下游应用程序的需求定义，例如，命名实体的类型以及是否需要检测嵌套实体。

以下是NER研究的以下进一步探索方向。

1.细粒度NER和边界检测。
虽然许多现有研究（《Neural architectures for named entity recognition》、《End-to-end sequence labeling via bidirectional lstm-cnns-crf》、《Robust lexical features for improved neural network named-entity recognition》）都集中在一般领域的粗粒度NER上，但论文期望在特定领域对细粒度NER进行更多研究，以支持各种实际的word应用（《Software-specific named entity recognition in software engineering social content》）。细粒度NER面临的挑战是命名实体类型的显著增加，以及允许一个命名实体具有多个命名实体类型所带来的复杂性。这需要重新访问常见的NER方法，其中实体边界和类型同时被检测，例如，通过使用B-I-E-S-（实体类型）和O作为解码标签。值得考虑的是，将命名实体边界检测定义为一项专用任务，以检测命名实体边界，同时忽略命名实体类型。

边界检测和命名实体类型分类的解耦实现了边界检测的通用和鲁棒的解决方案，这些解决方案可以在不同领域共享，并为命名实体类型分类提供了专用的领域特定方法。正确的实体边界还能有效地缓解实体链接到知识库中的错误传播。已经有一些研究，认为实体边界检测是NER中的中间步骤（即子任务）。据论文所知，目前还没有专门针对实体边界检测的工作来提供一个鲁棒的识别器。论文期待着在未来这一研究方向的突破。

2.联合NER和实体链接。
实体链接（EL）也称为命名实体规范化或消歧，旨在参考知识库为文本中提到的实体分配唯一身份，例如通用领域的维基百科和生物医学领域的统一医学语言系统（UMLS）。大多数现有工作将NER和EL单独作为流水线（pipeline）设置中的两个独立任务来解决。论文认为，成功链接的实体（例如，通过知识库中的相关实体）所携带的语义显著丰富。也就是说，链接实体有助于成功检测实体边界和正确分类实体类型。值得探索联合执行NER和EL，甚至实体边界检测、实体类型分类和实体链接的方法，以便每个子任务都能从其他子任务的部分输出中受益，并减少流水线（pipeline）设置中不可避免的错误传播。

3.有辅助资源的非正式文本上基于DL的NER
基于非正式文本或用户生成内容的DL-NER的性能仍然很低。这需要在这方面进行更多的研究。特别是，论文注意到，NER的性能显著受益于辅助资源的可用性，例如用户语言中的位置名称词典。虽然没有提供强有力的证据表明，涉及地名词典，作为额外的特征可以导致NER在通用领域的性能提升，但论文认为辅助资源往往是必要的，以更好地了解用户生成的内容。问题是如何为用户生成的内容或特定领域的文本上的NER任务获取匹配的辅助资源，以及如何有效地将辅助资源合并到基于深度学习的NER中。

4.基于DL的NER的可伸缩性。
使神经网络模型更具可伸缩性仍然是一个挑战。此外，当数据量增加时，仍然需要优化参数指数增长的解决方案（《A review on deep learning for recommender systems: challenges and remedies》）。一些基于DL的NER模型以巨大的计算能力为代价取得了良好的性能。例如，ELMo表示用3×1024维向量表示每个单词，模型在32个GPU上训练了5周（《Contextual string embeddings for sequence labeling》）。Google BERT表示在64个云TPU上进行训练。然而，如果终端用户无法访问强大的计算资源，他们就无法对这些模型进行微调。开发平衡模型复杂性和可伸缩性的方法将是一个有前途的方向。另一方面，模型压缩和剪枝技术也可以用来减少模型学习所需的空间和计算时间。

5.NER的深度迁移学习。
许多以实体为中心的应用程序求助于现成的NER系统来识别命名实体。然而，由于语言特征的差异以及注释的差异，在一个数据集上训练的模型可能无法在其他文本上很好地工作。尽管有一些研究将深度迁移学习应用于NER，但这个问题尚未得到充分探讨。未来应致力于如何通过探索以下研究问题，有效地将知识从一个领域转移到另一个领域：（a）开发一个能够跨不同领域工作的鲁棒识别器；（b）探索NER任务中的zero-shot, one-shot 和 few-shot learning；（c）提供解决跨域设置中的域不匹配和标签不匹配的解决方案。

6.一个易于使用的工具包，用于基于DL的NER。
最近，Röder等人开发了GERBIL（《GERBIL - benchmarking named entity recognition and linking consistently》），它为研究人员、最终用户和开发人员提供了易于使用的界面，用于对实体注释工具进行基准测试，目的是确保可重复和可架构的实验。然而，它不涉及最新的基于DL的技术。Ott介绍了FAIRSEQ（《fairseq: A fast, extensible toolkit for sequence modeling》），这是一个快速、可扩展的序列建模工具包，特别是用于机器翻译和文本描述。Dernoncourt等人实现了一个名为NeuroNER的框架（《NeuroNER: an easy-to-use program for named-entity recognition based on neural networks》），它只依赖于循环神经网络的一个变体。近年来，许多深度学习框架（例如TensorFlow、PyTorch和Keras）被设计为通过高级编程接口为设计、训练和验证深度神经网络提供构建模块。论文设想，一个易于使用的NER工具包可以指导开发人员使用一些标准化模块来完成它：数据处理、输入表示、上下文编码器、标记解码器和有效性度量。论文相信，专家和非专家都可以从这些工具包中受益。

7.数据标注。
受监督的NER系统，包括基于深度学习的NER，在训练中需要大量带标注的数据。然而，数据标注非常耗时和昂贵。对于许多资源匮乏的语言和特定领域来说，这是一个巨大的挑战，因为需要相关领域专家来执行数据标注的任务。
由于语言的模糊性，标注的质量和一致性都是主要问题。例如，同一个命名实体可以用不同的类型进行注释。例如，““Baltimore defeated the Yankees”一句中的“Baltimore”，在MUC-7中被标记为位置，在CoNLL03中被标记为组织。在CoNLL03和ACE数据集中，“Empire State ”和“Empire State Building”都被标记为位置，导致实体边界混乱。由于数据标注的不一致性，即使两个数据集中的文档来自同一个域，在一个数据集中训练的模型在另一个数据集中也可能无法很好地工作。
为了使数据注释更加复杂，Katiyar和Cardie（《Nested named entity recognition revisited》）报告说嵌套实体相当常见：GENIA语料库中17%的实体嵌入到另一个实体中；在ACE语料库中，30%的句子包含嵌套实体。需要开发适用于嵌套实体和细粒度实体的通用注释方案，其中一个命名实体可以被分配多种类型。

8.非正式文本和没见过的实体。
正式文件（如新闻文章）的数据集报告了不错的结果。然而，在用户生成的文本上，最佳准确率分数略高于40%。非正式文本（如推文、评论、用户论坛）的NER比正式文本更具挑战性，因为其简短并有噪声。许多用户生成的文本也是特定领域的。在许多应用场景中，NER系统必须处理用户生成的文本，例如电子商务和银行中的客户支持。评估NER系统的鲁棒性和有效性的另一个有趣维度是，它能够在新出现的文本中识别不寻常的、以前没见过的实体。

5.2实体关系抽取技术的未来发展趋势和面临的挑战

在北京林业大学的论文《实体关系抽取方法研究综述》中提出：目前,实体关系抽取技术日渐成熟,但依然需要研究人员投入大量精力进行不断探索,通过对现有实体关系抽取研究工作进行总结,在以后的研究中可以从５个方面展开相关的研究。

1.从二元关系抽取到多元关系抽取的转化。
当前的关系抽取系统主要集中在２个实体之间的二元关系抽取,但并非所有的关系都是二元的,如有些关系实例需要考虑时间和地点等信息,所以会考虑更多的论元。目前已有相关论文提出针对多元关系抽取的方法,但该方法与二元关系抽取模型相比,在准确率和召回率上仍有较大的差距。如何根据上下文信息,识别跨越句子的多元实体关系,提高关系抽取的准确率和智能化,这促使研究者不断投入更多的精力。

2.开放领域的实体关系抽取的深入研究。
目前的研究工作大多面向特定的关系类型或者特定领域，而使用特定的语料库,很难做到其他领域的自动迁移。虽然，一些研究者针对开放领域的关系抽取进行了研究,提出了一系列的方法用于实体关系抽取，然而这类方法和特定领域相比仍有一定的差距。如何不断提高系统的准确率、可移植性以及可扩展性，这都激励着研究人员投入更多的精力和时间,促进开放领域的实体关系抽取的发展。

3.远程监督关系抽取方法得到不断改进。
目前,由于远程监督的方法仍然存在错误标签和误差传播２个主要问题,研究者多是基于这些问题对深度学习的关系抽取模型加以改进。为了避免产生过多的错误标签,人们主要采用多示例、注意力机制的方法等方法减少噪音数据。目前已有相关方法融合增强学习和远程监督方法的优点，不断地减少错误标签,进而降低负类数据对关系抽取模型的影响。针对误差传播的问题,研究者多是对句子的语义信息进行深入挖掘,而对句子语法信息却少有涉及。如何有效地解决远程监督产生的错误标签和误差传播,如何有效地融合语法和语义信息,这些问题将激励着研究者不断改进相关算法,不断提高深度学习方法的性能。

4.深度学习有监督方法的性能提升。
近年来,越来越多的研究人员关注于联合学习和基于图结构的抽取方法。联合学习将命名实体识别和关系抽取作为一个任务,减少了错误信息的积累和传播,也减少了冗余信息对模型的影响。而针对关系重叠和实体间潜在特征等问题,基于图结构的抽取方法提供了一些新的思路。然而这２种方法的性能还需进一步改进,不断促进信息抽取领域的发展。

5.工业级实体关系抽取系统的继续研发。
关系抽取现已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发、权限管理,人力资源管理等领域。通过对学术研究和市场需求进行深入地融合,不断提高实体关系抽取的可靠性、置信度、执行效率等,促进关系抽取模型的性能进一步得到提升,为人们的生活提供更多便利。

5.3事件抽取技术的未来发展趋势和面临的挑战

在文本挖掘中，事件提取是一项重要且具有挑战性的任务，它主要从描述事件的相关文本中学习事件的结构化表示。事件提取主要分为两个子任务：事件检测和参数提取。事件抽取的核心是识别文本中与事件相关的词，并将其分类。基于深度学习模型的事件提取方法自动提取特征，避免了手工设计特征的繁琐工作。事件提取任务被构造为一个端到端系统，使用具有丰富语言特征的词向量作为输入，以减少底层NLP工具造成的错误。以前的方法侧重于研究有效特征，以获取候选触发器、候选参数的词汇、句法和语义信息。此外，他们还探讨了触发器和与同一触发器相关的多个实体之间的依赖关系，以及与同一实体相关的多个触发器之间的关系。根据事件提取的特点和目前的研究现状，论文总结了以下技术挑战。

事件抽取语料库面临的挑战

1.事件提取数据集构建。
事件提取任务复杂，现有的预训练模型缺乏对事件提取任务的学习。现有的事件提取数据集只有少量的标记数据，手工标注事件提取数据集的时间成本较高。因此，构建大规模事件提取数据集或设计自动构建事件提取数据集也是未来的研究趋势。

2.新的数据集。
事件提取的数据集很小。深度学习结合外部资源，构建大规模数据集，取得了良好的效果。由于标记数据集的构建困难，且数据集规模较小，如何更好地利用深度学习，借助外部资源有效地提取事件，也是一个迫切的研究方向。

3.事件提取模式。
事件提取方法可分为封闭域事件提取方法和开放域事件提取方法。没有模式的事件提取方法的效果很难评估，基于模板的事件提取方法需要根据不同的事件类型设计不同的事件模式。因此，如何设计一个通用的事件抽取基于事件特征的模式是克服构建事件抽取数据集和类间知识共享困难的重要手段。

事件提取模型的挑战

1.依赖学习。
目前，基于BERT的事件提取方法已经成为主流。然而，事件提取不同于训练前由BERT模型学习的任务。参数提取需要考虑事件参数角色之间的关系，以提取同一事件类型下的不同角色。它需要事件提取模型来学习文本的语法依赖关系。因此，建立事件参数之间的依赖关系是全面、准确地提取每种事件类型的参数亟待解决的问题。

2.端到端学习模型。
与传统方法相比，基于联合模型的深度学习方法的优势在于联合表示形式。事件提取取决于实体的标签。因此，本文认为，建立基于深度学习的端到端自主学习模型是一个值得研究和探索的方向，如何设计多任务多联动的学习模型是一个重大挑战。

3.多事件提取。
根据事件提取的粒度不同，事件提取可分为句子级事件提取和文档级事件提取。关于句子级事件抽取的研究已经很多。然而，文档级事件提取仍处于探索阶段，文档级事件提取更接近实际应用。因此，如何设计文本的多事件抽取方法具有重要的研究意义。

4.域事件提取。
域文本通常包含大量的技术术语，这增加了域事件提取的难度。因此，如何设计有效的方法来理解领域文本中深层的语义信息和上下文对应关系已成为亟待解决的问题。

参考文献：

Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li,“A Survey on Deep Learning for Named Entity Recognition,” IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2020
李冬梅，张扬，李东远，林丹琼 .实体关系抽取方法研究综述[J]. 计算机研究与发展,2020,57(7)
Qian Li, Jianxin Li, Jiawei Sheng, Shiyao Cui, Jia Wu，Yiming Hei, Hao Peng,Shu Guo, Lihong Wang, Amin Beheshti, and Philip S ,“A Compact Survey on Event Extraction: Approaches and Applications,“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021

版权声明：程序员胖胖胖虎阿发表于 2022年10月24日上午4:56。
转载请注明：【技术白皮书】第五章：信息抽取技术的未来发展趋势和面临的挑战 | 胖虎的工具箱-编程导航