multimodal pre-trainingcross-modal guidancevisual sequence compressiondual-stream feature ex-tractionfine-grained relational reasoninglocalized feature alignment
多模态预训练 跨模态引导 视觉序列压缩 双流特征提取 细粒度关系推理 局部特征对齐
国家自然科学基金国家自然科学基金吉林省人才专项西安市飞行器光学成像与测量技术重点实验室开放基金
61890963U234122620240602015RC2023-13
2024