查看更多>>摘要:目的 曲线图是数据呈现的重要形式,但在没有原始数据的情况下难以查询其中的具体数值.现有的图数转化算法需要大量的人工辅助操作去除图表中网格线等干扰,具有机械重复性且需大量人力的缺点.另外,图像压缩与缩放等攻击会降低图像质量,导致图数转化的准确度进一步降低.为了解决上述问题,本文提出了一个基于曲线提取与细化神经网络的图数转化算法.方法 首先,提出了基于侧结构引导与拉普拉斯卷积的曲线提取神经网络(side structure guidance and Laplace convolution based curve extraction neural network,SLCENet),以轻量化的模型解决了现有曲线提取方法中的池化操作导致的边界模糊问题,提高了曲线提取的准确度.其次,为了减小曲线线宽对图数转化造成的误差,并平衡计算复杂度和准确度,设计了 10个能够反映曲线走势的特征,提出了基于曲线走势特征和多层感知机的曲线细化方法(curve trend features and MLP based curve thinning method,CMCT),实现了曲线细化的高精度.最后,利用PaddleOCR(paddle optical character recognition)定位并识别坐标轴上的坐标标签,建立起坐标轴坐标与像素坐标的变换关系,通过坐标变换完成图数转化任务.结果 在曲线提取方面,本文方法SLCENet的全局最优阈值指标(optimal dataset scale,ODS)达到了 0.985,在分辨率为640×480像素的图像上的运行速度达到了0.043s/幅,在兼顾曲线提取准确度和运行速度的情况下达到了最好的性能.在图数转化方面,本文方法的归一化均值误差(normalized mean error,NME)达到了 0.79,运行速度达到了 0.83 s/幅.结论 提出的方法实现了全自动高精度的图数转化目标.与现有方法相比,在保持较小计算量的情况下兼具准确度高和运行速度快的特点,摆脱了图数转化需要大量人工交互辅助的限制.