摘要
针对跨媒体视觉认知任务,开展了视觉场景认知与常识知识跨模态知识表征统一模型研究,从视觉的属性解耦表征、空间关系表征、物体形状表征等方面进行深入研究,提出视觉因果概念表征理论模型。进一步研究了多模态信息不一致性的消解问题和视觉场景理解的因果推理方法,提出了可解释性,可消解跨模态特征的不一致性的双向主动视觉推理技术。在表征理论方面,采用稳健的线性回归模型来控制潜在的混淆变量来确立因果关系。研究了信息瓶颈和有监督解耦之间的联系,给出了实现最大化压缩对应的量化条件,提出了基于解耦的信息瓶颈算法,构建了判别特征与类属性特征集成学习的全属性表征理论与算法,提升预测模型的稳健性和泛化能力。面向跨模态因果推理,提出了基于组合优化的图结构对齐与融合理论与方法,将数据驱动与专家规则结合,进行复杂推理与决策问题的端到端神经网络并行高效求解,有效解决推理问题在面临组合爆炸时的时间与空间复杂度的局限。为理解视频因果推理,提出了因果视频问答任务,并构建了相应的大型因果分析数据集。针对多模态歧义消解问题,研究了多模态视觉定位和空间描述解析任务,将文本特征中的方位信息用于图像特征编码;对于基于声音的视频生成,利用声音特征指导关键点的运动。大量的计算机视觉实验验证所提算法对于跨模态歧义性消除以及表达一致性的有效性。