制造业自动化2024,Vol.46Issue(4) :53-58,71.

基于LayoutXLM的核电工程图纸标题栏信息自动提取方法研究

Research on automatic extraction method of title block information of nuclear power engineering drawings based on layoutXLM

林杰 曾俊冬 初凤红 王树昂
制造业自动化2024,Vol.46Issue(4) :53-58,71.

基于LayoutXLM的核电工程图纸标题栏信息自动提取方法研究

Research on automatic extraction method of title block information of nuclear power engineering drawings based on layoutXLM

林杰 1曾俊冬 1初凤红 1王树昂2
扫码查看

作者信息

  • 1. 上海电力大学 电子与信息工程学院,上海 201306
  • 2. 中国核工业第五建设有限公司 工程研究院,上海 200540
  • 折叠

摘要

对核电工程图纸进行数字化管理,需要从大量既有图纸的标题栏中提取有用信息.针对核电工程图纸标题栏结构多变的特点,提出了基于LayoutXLM的标题栏文本信息自动提取方法.首先,利用光学字符识别技术获取标题栏图像的文本坐标和文本内容,将标题栏文本、文本布局信息和标题栏图像信息作为多模态预训练模型LayoutXLM的输入,提取出标题栏文本的语义实体特征.然后,将实体特征作为BiGRU-CRF网络和双仿射注意力机制的输入,分别构建语义实体识别模型和关系抽取模型.最后,使用自建标题栏数据集对语义实体识别模型和关系抽取模型进行验证.实验结果表明,语义实体识别的F1分数达到90%以上,关系抽取的F1分数达到78%,验证了该方法的有效性,为标题栏信息的自动提取提供了新的思路.

关键词

标题栏/LayoutXLM/语义实体识别/关系抽取

引用本文复制引用

基金项目

国家自然科学基金(62105196)

出版年

2024
制造业自动化
北京机械工业自动化研究所

制造业自动化

CSTPCD
影响因子:0.482
ISSN:1009-0134
参考文献量22
段落导航相关论文