多层结构化语义知识增强的跨领域命名实体识别

Cross-Domain Named Entity Recognition of Multi-Level Structured Semantic Knowledge Enhancement

张文韩 ¹刘小明 ²杨关 ³刘杰⁴

扫码查看

作者信息

1. 中原工学院计算机学院郑州 450007
2. 中原工学院计算机学院郑州 450007;国家语委中国语言智能研究中心(首都师范大学) 北京 102206
3. 中原工学院计算机学院郑州 450007;河南省网络舆情监测与智能分析重点实验室(中原工学院) 郑州 450007
4. 北方工业大学信息学院北京 100144;国家语委中国语言智能研究中心(首都师范大学) 北京 102206
折叠

摘要

跨域命名实体识别旨在缓解目标领域标注数据不足的问题.现有方法通常利用特征表示或者模型参数的共享来实现实体识别能力的跨领域迁移,但对文本序列中结构化知识的充分利用仍有所欠缺.基于此,提出了基于多层结构化语义知识增强的跨领域命名实体识别(multi-level structured semantic knowledge enhanced cross-domain named entity recognition,MSKE-CDNER)模型,即通过在多个层级实现对源领域和目标领域文本各自蕴含的结构化表示的对齐来促进实体识别能力跨领域迁移.首先,MSKE-CDNER利用结构特征表示层从不同领域中获取文本的结构化语义知识表示;然后,将获得的结构化语义知识表示通过潜层对齐模块在对应的层级进行结构化对齐,获取结构化的跨领域不变知识,从而提高模型对文本结构化知识的利用;此外,将域不变知识与特定域知识融合,进一步增强模型的泛化能力;最后,分别在 5个英文数据集和特定的跨域命名实体识别数据集上进行实验.结果显示,对比当前跨域模型,MSKE-CDNER的平均性能提高了 0.43%和 1.47%,表明利用特征表示中的结构化知识可以有效提高目标领域的实体识别能力.

关键词

跨域命名实体识别/跨领域迁移/结构化对齐/结构化知识/域不变知识

Key words

cross-domain named entity recognition/cross-domain transfer/structured alignment/structured knowledge/domain invariant knowledge

引用本文复制引用

基金项目

国家重点研发计划项目(2020AAA0109700)

国家自然科学基金(62076167)

河南省高等学校重点科研项目(23A520022)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

参考文献量5

段落导航