视频描述中多参考语义生成网络

Multi-Reference Semantic Generation Network for Video Captioning

扫码查看

原文链接

万方数据
维普

中文摘要：针对视频描述中语义特征表达能力不足导致的文本描述不准确问题,提出一种多参考语义生成网络.该网络以多层感知机为主要结构,在多层感知机的每一层引入视觉特征参考,获取更加丰富有效的语义信息,同时保障原始视觉信息的完整表达.由于多参考语义生成网络利用视觉特征对自身进行补充和调整,能有效增强语义特征的表达能力,提高视频描述的准确性.在MSR-VTT和MSVD数据集上的实验结果表明,多参考语义生成网络在视频描述精度上明显优于同类算法,与SAVC语义辅助视频描述网络相比,平均准确率提升了0.99％.

作者：

高航、杨大伟、毛琳

展开 >

作者单位：

大连民族大学机电工程学院,辽宁大连116605

关键词：

视频描述多参考语义特征嵌套结构捷径连接

基金：

国家自然科学基金辽宁省自然科学基金辽宁省自然科学基金辽宁省自然科学基金

项目编号：

6167308420170540192201805508662020-MZLH-24

出版年：

2022

大连民族大学学报

大连民族学院

大连民族大学学报

CHSSCD

影响因子：0.266

ISSN：1009-315X

年,卷(期)：2022.24(5)

参考文献量3