首页|融入单元格结构信息的表格抽取方法

融入单元格结构信息的表格抽取方法

扫码查看
现有的端到端方法和基于预训练模型的方法在训练过程中未有效利用表格单元格的结构信息,从而影响了表格文本在模型中的向量表示和最终的语义信息抽取精确率;因此提出了进一步利用单元格结构信息来改进光学字符识别效果的端到端方法和增加单元格序列预测任务的预训练方法。实验结果显示改进后的2种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了 0。204 6和0。017 6。改进后的方法加强了单元格结构信息在表格中的重要性,提高了表格语义信息抽取的精确率。
Table Extraction Method Incorporating Cell Structural Information
In view of the fact that the existing end-to-end methods and pre-training model-based methods do not effectively utilize the structural information of the table cells during the training process,which affects the vector representation of the table text in the model and the final semantic information extraction accuracy,an end-to-end method that further utilizes the structural information of the cells to improve the effectiveness of the optical character recognition,and a pre-training method that increases the cell sequence prediction task are proposed.The experimental results show that the improved 2 methods achieve better results in the task of table semantic information extraction,with F1 values improved by 0.204 6 and 0.017 6.The improved methods reinforce the importance of cell structure information in tables and improve the accuracy rate of table semantic information extraction.

table information extractioncell structural informationtable recognition algorithmcell range recognition

乔岩、吴至友、高桓、段旭祥

展开 >

重庆师范大学数学科学学院,重庆 401331

英特尔边缘智能联合研究院,南京 211135

重庆大学数学与统计学院,重庆 401331

表格信息抽取 单元格结构信息 表格识别算法 单元格区域识别

国家自然科学基金面上项目

12371258

2024

重庆师范大学学报(自然科学版)
重庆师范大学

重庆师范大学学报(自然科学版)

CSTPCD北大核心
影响因子:0.652
ISSN:1672-6693
年,卷(期):2024.41(2)