首页|基于LayoutXLM的核电工程图纸标题栏信息自动提取方法研究

基于LayoutXLM的核电工程图纸标题栏信息自动提取方法研究

扫码查看
对核电工程图纸进行数字化管理,需要从大量既有图纸的标题栏中提取有用信息.针对核电工程图纸标题栏结构多变的特点,提出了基于LayoutXLM的标题栏文本信息自动提取方法.首先,利用光学字符识别技术获取标题栏图像的文本坐标和文本内容,将标题栏文本、文本布局信息和标题栏图像信息作为多模态预训练模型LayoutXLM的输入,提取出标题栏文本的语义实体特征.然后,将实体特征作为BiGRU-CRF网络和双仿射注意力机制的输入,分别构建语义实体识别模型和关系抽取模型.最后,使用自建标题栏数据集对语义实体识别模型和关系抽取模型进行验证.实验结果表明,语义实体识别的F1分数达到90%以上,关系抽取的F1分数达到78%,验证了该方法的有效性,为标题栏信息的自动提取提供了新的思路.
Research on automatic extraction method of title block information of nuclear power engineering drawings based on layoutXLM

林杰、曾俊冬、初凤红、王树昂

展开 >

上海电力大学 电子与信息工程学院,上海 201306

中国核工业第五建设有限公司 工程研究院,上海 200540

标题栏 LayoutXLM 语义实体识别 关系抽取

国家自然科学基金

62105196

2024

制造业自动化
北京机械工业自动化研究所

制造业自动化

CSTPCD
影响因子:0.482
ISSN:1009-0134
年,卷(期):2024.46(4)
  • 22