首页|多模态文档知识库问答研究及应用

多模态文档知识库问答研究及应用

扫码查看
从大量的多模态文档中提取所需信息,是当前自然语言处理知识库问答领域中的一个关键研究方向。传统的知识库问答主要侧重于处理结构化知识,然而,在实际应用场景中,非结构化的文档常常作为知识载体。在多模态文档知识库问答任务中,需要从大规模文档图片(DocumentImage)中精确地筛选出相关信息并作出问答。但文档图像的文章结构不一且布局风格多样,当前解析模型并未考虑到布局信息对解析结果的影响。此外,文档通常是长文本,面对细粒度问题,模型的检索性能受到影响。 在实际商业活动中,文档图片格式复杂,包含文本、有线表格、无线表格和手写体等元素。针对多模态文档布局解析问题。本文的第一个工作提出了基于序列到序列的中文布局解析及内容理解预训练模型(ChineseLayoutParseandContentUnderstandingPretrainTransformers,CLUPT)。该模型能端到端的生成文本内容和HTML布局符号,从而实现对多模态文档中各类复杂信息的处理。具体来说,本工作提供了一套HTML布局符号系统,布局符号代表了文档中布局格式并且可扩展以支持特定领域的文档解析。CLUPT模型能够同时处理文本、布局信息以及表格等多种元素,而不用采用流水线的方式分别解析这些文档元素。实验结果证明,模型不仅在解析性能方面取得与SOTA相匹配的水平,而且在推理阶段能够显著减少0.6倍的处理器资源消耗。 为了提升篇章级长文本检索性能,本文的第二个研究工作提出了基于三阶段多粒度融合的篇章级长文本检索方法。借助第一个工作解析好的篇章长文本,该方法充分利用了篇章中层次结构信息,既从篇章级别进行全局性文档筛选,又利用篇章内段落级和句子级细粒度信息对筛选出的文档进行评分和排序。在篇章级别的检索数据集上进行的实验结果来看,该方法在综合召回指标取得了卓越的成绩,达到0.9456。同时,在粗粒度召回指标Top3和Top5上也取得了最佳性能,分别达到了0.9525和0.9732。 本文第三个工作基于以上研究方法,对金融领域的文档进行解析并构建检索模型,然后利用大语言模型和LangChain工具来搭建多模态知识库问答系统。

刘曙

展开 >

文档知识库问答 深度学习 知识库问答

硕士

计算机技术

兰曼

2023

华东师范大学

中文

TP