中文信息学报2024,Vol.38Issue(2) :87-98.

面向买卖合同的词汇增强细粒度实体识别

Fine-grained Entity Recognition of Business Contract Based on Lexicon Enhancement

王浩畅 郑冠彧 赵铁军
中文信息学报2024,Vol.38Issue(2) :87-98.

面向买卖合同的词汇增强细粒度实体识别

Fine-grained Entity Recognition of Business Contract Based on Lexicon Enhancement

王浩畅 1郑冠彧 2赵铁军3
扫码查看

作者信息

  • 1. 东北石油大学计算机与信息技术学院,黑龙江大庆 163318
  • 2. 东北石油大学计算机与信息技术学院,黑龙江大庆 163318;华南理工大学软件学院,广东广州 510006
  • 3. 哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001
  • 折叠

摘要

对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能.然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题.因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列.该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验.实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型.

Abstract

The information extraction of the parties,the basic contract information,the contract terms and other fine-grained entities in the contract text can effectively improve the efficiency of contract review and empower auto-mated contract management.To address the challenge of complexity and subtlety of entities in the contract,this pa-per proposes a new fine-grained entity recognition model named BLBC-CFER based on lexicon enhancement.It em-ploys the character-level enhancements provided by pre-trained language models,word-level enhancements provided by character-plus-word embeddings and word-level enhancements provided by lexical set structure embeddings.Based on these,it obtains the optimal sequence of tokens through deep neural networks.Experiments on a self-con-structed fine-grained entity corpus of business contracts and two public data sets demonstrate the superior perform-ance of the proposed method.

关键词

词汇增强/细粒度实体识别/序列标注/合同领域

Key words

lexicon enhancement/fine-grained entity recognition/sequence tagging/contract domain

引用本文复制引用

基金项目

国家自然科学基金(61402099)

国家自然科学基金(61702093)

出版年

2024
中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCSCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
参考文献量30
段落导航相关论文