首页|表格识别技术研究进展

表格识别技术研究进展

扫码查看
表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息.表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一.随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现.然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决.为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展.梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较.然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平.最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望.
A survey on table recognition technology

高良才、李一博、都林、张新鹏、朱子仪、卢宁、金连文、黄永帅、汤帜

展开 >

北京大学王选计算机研究所,北京100871

华为技术有限公司AI应用研究中心,北京100085

华南理工大学电子与信息学院,广州 510640

表格区域检测 表格结构识别 表格内容识别 深度学习 单元格识别 表格信息抽取

国家重点研发计划

2019YFB1406303

2022

中国图象图形学报
中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心
影响因子:1.111
ISSN:1006-8961
年,卷(期):2022.27(6)
  • 8
  • 125