重庆师范大学学报(自然科学版)2024,Vol.41Issue(2) :137-144.DOI:10.11721/cqnuj20240209

融入单元格结构信息的表格抽取方法

Table Extraction Method Incorporating Cell Structural Information

乔岩 吴至友 高桓 段旭祥
重庆师范大学学报(自然科学版)2024,Vol.41Issue(2) :137-144.DOI:10.11721/cqnuj20240209

融入单元格结构信息的表格抽取方法

Table Extraction Method Incorporating Cell Structural Information

乔岩 1吴至友 1高桓 2段旭祥3
扫码查看

作者信息

  • 1. 重庆师范大学数学科学学院,重庆 401331
  • 2. 英特尔边缘智能联合研究院,南京 211135
  • 3. 重庆大学数学与统计学院,重庆 401331
  • 折叠

摘要

现有的端到端方法和基于预训练模型的方法在训练过程中未有效利用表格单元格的结构信息,从而影响了表格文本在模型中的向量表示和最终的语义信息抽取精确率;因此提出了进一步利用单元格结构信息来改进光学字符识别效果的端到端方法和增加单元格序列预测任务的预训练方法.实验结果显示改进后的2种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了 0.204 6和0.017 6.改进后的方法加强了单元格结构信息在表格中的重要性,提高了表格语义信息抽取的精确率.

Abstract

In view of the fact that the existing end-to-end methods and pre-training model-based methods do not effectively utilize the structural information of the table cells during the training process,which affects the vector representation of the table text in the model and the final semantic information extraction accuracy,an end-to-end method that further utilizes the structural information of the cells to improve the effectiveness of the optical character recognition,and a pre-training method that increases the cell sequence prediction task are proposed.The experimental results show that the improved 2 methods achieve better results in the task of table semantic information extraction,with F1 values improved by 0.204 6 and 0.017 6.The improved methods reinforce the importance of cell structure information in tables and improve the accuracy rate of table semantic information extraction.

关键词

表格信息抽取/单元格结构信息/表格识别算法/单元格区域识别

Key words

table information extraction/cell structural information/table recognition algorithm/cell range recognition

引用本文复制引用

基金项目

国家自然科学基金面上项目(12371258)

出版年

2024
重庆师范大学学报(自然科学版)
重庆师范大学

重庆师范大学学报(自然科学版)

CSTPCD北大核心
影响因子:0.652
ISSN:1672-6693
段落导航相关论文