摘要
跨域命名实体识别旨在缓解目标领域标注数据不足的问题.现有方法通常利用特征表示或者模型参数的共享来实现实体识别能力的跨领域迁移,但对文本序列中结构化知识的充分利用仍有所欠缺.基于此,提出了基于多层结构化语义知识增强的跨领域命名实体识别(multi-level structured semantic knowledge enhanced cross-domain named entity recognition,MSKE-CDNER)模型,即通过在多个层级实现对源领域和目标领域文本各自蕴含的结构化表示的对齐来促进实体识别能力跨领域迁移.首先,MSKE-CDNER利用结构特征表示层从不同领域中获取文本的结构化语义知识表示;然后,将获得的结构化语义知识表示通过潜层对齐模块在对应的层级进行结构化对齐,获取结构化的跨领域不变知识,从而提高模型对文本结构化知识的利用;此外,将域不变知识与特定域知识融合,进一步增强模型的泛化能力;最后,分别在 5个英文数据集和特定的跨域命名实体识别数据集上进行实验.结果显示,对比当前跨域模型,MSKE-CDNER的平均性能提高了 0.43%和 1.47%,表明利用特征表示中的结构化知识可以有效提高目标领域的实体识别能力.
基金项目
国家重点研发计划项目(2020AAA0109700)
国家自然科学基金(62076167)
河南省高等学校重点科研项目(23A520022)