首页|面向买卖合同的词汇增强细粒度实体识别

面向买卖合同的词汇增强细粒度实体识别

扫码查看
对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能.然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题.因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列.该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验.实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型.
Fine-grained Entity Recognition of Business Contract Based on Lexicon Enhancement
The information extraction of the parties,the basic contract information,the contract terms and other fine-grained entities in the contract text can effectively improve the efficiency of contract review and empower auto-mated contract management.To address the challenge of complexity and subtlety of entities in the contract,this pa-per proposes a new fine-grained entity recognition model named BLBC-CFER based on lexicon enhancement.It em-ploys the character-level enhancements provided by pre-trained language models,word-level enhancements provided by character-plus-word embeddings and word-level enhancements provided by lexical set structure embeddings.Based on these,it obtains the optimal sequence of tokens through deep neural networks.Experiments on a self-con-structed fine-grained entity corpus of business contracts and two public data sets demonstrate the superior perform-ance of the proposed method.

lexicon enhancementfine-grained entity recognitionsequence taggingcontract domain

王浩畅、郑冠彧、赵铁军

展开 >

东北石油大学计算机与信息技术学院,黑龙江大庆 163318

华南理工大学软件学院,广东广州 510006

哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001

词汇增强 细粒度实体识别 序列标注 合同领域

国家自然科学基金国家自然科学基金

6140209961702093

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(2)
  • 30